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SYMBOLS 


The following standard symbols are _ used 
in Statistics Canada publications: 
.. figures not available. 


.«. figures not appropriate or not applica- 
ble. 


nis Onmao Ol. 
-- amount too small to be expressed. 
P preliminary figures. 

Y revised figures. 


x confidential to meet secrecy require 
ments of the Statistics Act. 


SIGNES CONVENTIONNELS 


Les signes conventionnels suivants sont 


em 


ployés uniformément dans les publications de Sta 


tistique Canada: 
-+ nombres indisponibles. 


«ss Nn ayant pas lieu de rigurer, 


—- néant ou zéro. 
-- nombres infimes. 

P nombres provisoires. 

Yr nombres rectifiés. 

x confidentiel en vertu des dispositions 


la Loi sur la statistique relatives au 
cret. 
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‘EFACE 


Record linkage is a technique of enrich- 
g the information value of data files. 
iis technique combines data from divers 
suurces and has been made possible through 
‘chnological advancements in electronic 
ta processing methods. Apart from enriched 
ta files, improved data quality, reduced 
‘sponse burden, and enhanced capabilities 

judge data adequacy are noteworthy side 
fects of record linkage. 


Statistics Canada must endeavour to avail 
self of modern cost-effective techniques. 

this end, the experiment described in 
is report was undertaken. While theoreti- 
1 reference material was readily avail- 
le, relevant practical examples’ were 
arce. We made extensive use of the experi- 
ce gained by members of the United States 
partment of Health, Education and Welfare 

their development of linkage applica- 
ons. 


This report puts the emphasis on des- 
ibing the techniques used in the practical 
mtext of two concrete data files, the 
oblems encountered and how they were dealt 
th, and assesses the quality of income 
porting in the 1971 Census compared to 
71 tax data. As such, it is addressed pri- 
rily to personnel involved in record lin- 
ge studies and users of census’ income 
ta. 


The Bureau's linkage experiment was 
rried out by members of the research staff 

the Consumer Income and _ Expenditure 
vision of Statistics Canada under the 
rection of Mrs. G. Oja. All computer- 
lated activities were directed by lL. 
let, and H.E. Alter was responsible for 
e specification of matching routines, data 
eparation and analysis. He will also deal 
th technically oriented inquiries resul- 
ng from this study. 


PREFACE 


Le couplage des dossiers accroft la valeur 
informative des fichiers de données. La technique 
consiste a grouper des données de diverses sour- 
ces et a 6té rendue possible par les progrés 
réalisés dans le domaine des méthodes de traite- 
ment électronique des données. Le couplage des 
dossiers nous permet en outre d'améliorer la 
qualité des données, de réduire le fardea des 
répondants et de mieux juger de la pertinence des 
données. 


Statistique Canada doit s'efforcer de mettre 4 
profit les techniques modernes de réduction des 
coats. C'est dans cette perspective que l'expé- 
rience décrite ici a été entreprise. Bien que les 
documents de référence théoriques en cette matié- 
res soient facilement accessibles, les exemples 
concrets manquent. Nous nous sommes donc large- 
ment appuyés sur l'expérience acquise par le 
ministére américain de la Santé, de 1'fiducation 
et du Bien-étre dans ses travaux de couplage. 


Le présent rapport s'emploie a décrire les 
techniques utilisées dans le contexte pratique de 
deux fichiers de données concrets et: a présenter 
les problémes qui ont surgi et les solutions 
qu'on a retenues; en outre, il compare la qualité 
des chiffres sur le revenu tirés du rencensement 
de 1971 avec les données fiscales de la méme 
année. Il s'agit donc d'un ouvrage qui intéres- 
sera principalement les individus qui exécutent 
des études sur le couplage des dossiers et les 
utilisateurs des données du. recensement qui por- 
tent sur le revenu. 


L'expérience de couplage du Bureau a été 
faite par des membres de 1l'équipe de recherche 
de la Division du revenu et des dépenses des 
consommateurs de Statistique Canada, sous la 
direction de G. Oja. L. Nolet était responsable 
de toutes les activités A caractére informatique 
tandis que H.E. Alter devrait s'occuper de la 
définition des routines d'appariement, de la 
préparation et de l'analyse des données. Ce der- 
nier s'occupera aussi des demandes de nature 
technique que pourra susciter la présente étude. 


- : a : 4 
a = ues 
; waa 
i 7 - ba 


ay 0(0t Fane a, 
“i e° : acy ay Rate eo 


a . - aori iP Pat | 7 
; (<n, Oe 
# “Clinay 
nl “7 
| 

| 
| 
. 

, 
n . 
, ( . 
/ 
@ 

£9066 
e 
q 
& 
a 
>}, 
; 


TABLE OF CONTENTS 


Page 
Summary 9 
Record Linkage i | 
Introductory Remarks ill 
The Need for Linked Data 14 
The Matching of Tax and Census Records ibs: 
Post-match Analysis pA 
Methodological Review 21 
Income Reporting on Matches and Non- 
mat ches 29 
True Matches and Reporting Errors 31 
Income Composition 33 
Non-matched Records from the 1971 
Census 46 
Postscript 50 
Text Table 
I. Matches by Time of Occurrence of 
Decision Type in Census—RC-T 
Match, 1971 21 
II. Accuracy Levels and Computer Time 
Levels for the Census-RC-T Match, 
1971 Zz, 
III. Address Components by Consistency 
Status and Agreement Type for the 
Census-RC-T Match, 1971 Zo 


IV. Personal Characteristics and Vari- 
ables by Consistency Status and 
Agreement Type for the Census-RC-T 
Match, 1971 ZT. 


Table 


1. Census Income Recipients, by Match 
Status and by Major Source of 
Income for Income Base Year, 
1970 56 


TABLE DES MATIBRES 


Résumé 


Couplage des dossiers 


Remarques liminaires 

Utilité des données couplées 

Appariement des dossiers de l'impét et du 
recensement 


Analyse post-appariements 


Méthodologie 

Déclaration du revenu —- Dossiers appariés et 
non appariés 

Appariements justes et erreurs de déclara- 
tion 

Composition du revenu 

Dossiers non appariés du recensement de 1971 


Post-scriptum 


Tableau explicatif 


I. Appariements selon le moment du type de 
décision, appariement recensement-RC-I, 
Lol 


Il. Niveau de précision et temps d'ordina- 
teur, appariement recensement-RC-I, 
1971 


III. fléments de l'adresse selon le statut 
de cohérence et le type de convergence, 
appariement recensement-RC-I, 1971 


IV. Caractéristiques et variables person- 
nelles selon le statut de cohérence et 
le type de convergence, appariement 
recensement-RC-I, 1971 


Tableau 


1. Personnes ayant déclaré un revenu au 
recensement, selon le statut d'apparie- 
ment et la principale source de revenu, 
1970 


Page 


21 


ho 
ho 


56 


TABLE OF CONTENTS — Continued 


Table 


ll. 


Ha 


lake 


Adult Census Population by Basic 
Age Group, by Sex and Broad Marital 
Status with Percentage Distribu- 
tions, 1971 


Sample of Adult Census Population 
by Basic Age Group, by Sex and 
Broad Marital Status with Percent-— 
age Distributions, 1971 


Matched Records by Basic Age Group, 
by Sex and Broad Marital Status 
with Percentage Distributions, 1971 


True Matches with Income Reported 
in One Source Only, by Basic Age 
Group, by Sex and Broad Marital 
Status with Percentage Distribu- 
ELONSHe ol 


All Non-matches by Basic Age Group, 
by Sex and Broad Marital Status 
with Percentage Distributions, 1971 


True Non-matches by Basic Age 
Group, by Sex and Broad Marital 
Status with Percentage Distribu- 
tions, 1971 


False Non-matches by Basic Age 
Group, by Sex and Broad Marital 
Status with Percentage Distribu- 
tions, 1971 


Reporting Pattern of Income Com— 
ponents for True Matches, by Source 
Presence with Consistency Rate for 
Income Base Year, 1970 


Reporting Patterns of Income Compo- 
nents, by Province for True Matches 
with Income Subject to Taxation 
Present in Both Sources for the 
Income Base Year, 1970 


Omissions and Substitutions of In- 
come Components, by Reliability 
Category with Aggregate Total In- 
come by Data Source for the Income 
Base Year, 1970 


Income Effect of Component Omission 
by Reliability Category, by Source 
of Omission, by Incidence Group for 
Income Base Year, 1970 


Income Effect of Component Substi- 
tution, by Reliability Category and 
Incidence of Substitution for In- 
come Base Year, 1970 


Page 


56 


ate 


57 


58 


58 


DY, 


BO. 


60 


61 


62 


64 


65 


TABLE DES MATIERES - suite oa 


Tableau oa 


2. 


KOK 


thik 


12. 


il Sha 


Population adulte du recensement par 
grands groupes d'age et selon le sexe et | 
1'état matrimonial, répartitions en 
pourcentage, 1971 5 


Fchantillon de la population adulte du 
recensement par grands groupes d'age et 
selon le sexe et l'état matrimonial, ré- 
partitions en pourcentage, 1971 5 


Dossiers appariés par grands groupes 

d'age et selon le sexe et l'état matri- | 
monial, répartitions en pourcentage, | 
Weal 5 


Appariements justes, revenu déclaré dans 

une seule source par grands groupes 

d'age et selon le sexe et l'état matri- 
monial, répartitions en pourcentage, 

OVA 5 


Ensemble des non-appariements par grands 
groupes d'age et selon le sexe et l'état 
matrimonial, répartitions en pourcen- 

tage, 1971 5 


Non-appariements justes par grands 

groupes d'age et selon le sexe et l'état 
matrimonial, répartitions en pourcen- 

tage, 1971 5 


Non-appariements erronés par grands 
groupes d'age et selon le sexe et l'état 
matrimonial, répartitions en pourcen- 
tage, 1971 5 


Modéle de déclaration des 6léments du 
revenu dans les appariements justes, 
selon la présence de la source et taux 
de cohérence, 1970 


Régime de déclaration des 61léments du 
revenu, par province, appariements 
justes, revenu soumis a l'impét présent 
dans les deux sources, 1970 


Omissions et substitutions d'éléments du 
revenu, par catégorie de fiabilité, et 
revenu agrégatif total par source de 
données, 1970 


Effet sur le revenu de l'omission d'un 
élément, par catégorie de fiabilité, 
selon la source de l'omission et le 
groupe d'incidence, 1970 


Effet sur le revenu de la substitution 
d'un 6lément, par catégorie de fiabi- 
lité, selon la source de la substitution 
et le groupe d'incidence, 1970 


BLE OF CONTENTS —- Concluded 


ble Page 


- Income Effect of Combined Omissions 
and Substitutions of Income Compo- 
nents, by Reliability Category and 
Source of Omissions for Income Base 
year. 1971 66 


. Match Rates and Taxfiler Rates 
with Components, by Province with 
Descending Rank Order for the In- 
come Base Year, 1970 67 


- Substitution of Employment Income 
Components for the Income Base 
Year, 1970 68 


. Census Gains and Losses Vis-—a-vis 
RC-T Reporting as a Result of Com- 
ponent Substitution for the Income 
Base Year, 19/70 68 


Number and Percentage of Records 
Appearing in Equivalent and Neigh- 
bouring Income Classes for Selected 
Income Components whenever Compo- 

nent has been Reported in at Least 

One Source (Census or RC-T) for the 
Income Base Year, 1970 69 


Distribution of Income Subject to 
Taxation with Class Deficiency 

Rates, by Match Status for the In- 

come Base Year, 1970 70 


Provincial Rank Order of Match 

Rates and Success Rates with Sup- 
porting Data for the Income Base 

Year, 1970 71 


sliography me. 


TABLE DES MATIERES — fin 


Tableau Page 


14. Effet sur le revenu des omissions et 
des substitutions des 6léments du re- 
venu, par catégorie de fiahilité et 
source des omissions, 197] 66 


15. fléments des taux d'appariement et des 


taux de déclaration 4 l'impét, par pro- 
vince et par ordre décroissant, 1970 67 


16. Substitution d'éléments du revenu de 
l'emploi, 1970 68 


17. Gains et pertes du recensement par rap- 
port a RC-I résultant de la substitution 
d'éléments, 1970 68 


18. Nombre et pourcentage de dossiers 
paraissant dans des classes de revenu 
équivalentes ou voisines en fonction de 
certains éléments du revenu déclarés 
dans au moins une source (recensement 
ou RC=-1), 1970 69 


19. Répartition du revenu soumis a l'impét 
et déficit, par statut d'appariement, 
1970 70 


20. Classement des taux d'appariement et des 
taux de réussite par province, 19/0 71 


Bibliographie fe’ 


a 


SUMMARY 


This report presents the results of an 
experiment which makes use of up-to-date 
computer technology and methodological 
developments with respect to record link- 
age. The data bases used, a sample of 1971 
Census records, and tax records for the 1970 
reference year, were the most useful data 
available when the project was started, but 
are out of date at the time of publication. 
The study must be seen in its usefulness of 
opening up new methods and in suggesting 
technical and cost feasiblity of similar 
projects. Analytical conclusions concerning 
income reporting patterns and other data 
problems may have to be viewed with reserva- 
tions in the light of current collection, 
edit and imputation practices, which may 
depart from those used a decade ago. 


The introductory section of this report 
discusses aspects of information value with 
reference to data and the possible improve- 
ment of the information value through record 
linkage. Types of record linkage, namely 
statistical and exact matches, are discussed 
next, and the exploitation of "“administra- 
tive” data is advocated. 


The need for linked data is demonstrated 
in the light of perceived utility of longi- 
tudinal records. Such records could be 
constructed as a follow-up to the initial 
linkage. Other benefits, such as an evalua- 
tion of the data quality of census records, 
would be obtained as a side benefit. 


The matching process and the underlying 
conceptual and technical problems are dis- 
cussed in sufficient detail to provide some 
stimulation for a professional audience. The 
informed layman may find it too detailed and 
hence boring. The reasons for selecting a 
Sample from the Census rather than from the 
tax universe, the choice of matching vari- 
ables, and the execution of matching rou- 
tines all fall into this section. 


The post-match analysis distinguishes 
between a methodological review, which 
assesses the efficacy of the linkage opera- 
tion, and an assessment of income report- 
ing. The assessment of income reporting in 
the Census, while it can only observe 
differences from two sources for identical 
Tespondents, actually must cope with the 
combined effect of non-response or partial 
Tesponse, component substitution due _ to 
misinterpretation or instrumental differ- 
ences (tax form, census questionnaire), and 
Processing errors including differences 


Caused by deliberate acts of edit and 
imputation. 


RESUME 


On trouvera ici les résultats d'un essai qui 
s'appuie sur les techniques informatiques et les 
méthodes les plus modernes dans le domaine du 
couplage des dossiers. Les bases de données uti- 
lisées, c.-d-d., un 6chantillon de dossiers du 
recensement de 1970 et les déclarations d'impét 
pour l'année de référence de 1970, étaient les 
meilleures données accessibles au début du 
projet. Toutefois, elles sont maintenant dépas- 
sées. La présente étude est donc surtout utile 
parce qu'elle ouvre la voie a de nouvelles métho- 
des et qu'elle donne une idée de la faisabilité 
technique et de la rentabilité de travaux simi- 
laires. Comme les pratiques actuelles de 
collecte, de contréle et d'imputation peuvent 
différer de celles qui étaient en usage il y a 10 
ans, les structures de déclaration et autres 
problémes observés doivent é6tre examinés avec 
quelques réserves. 


Dans les remarques liminaires, on discute de 
la valeur informative associée aux données et de 
son amélioration éventuelle au moyen du couplage 
des dossiers. On traite ensuite des différents 
types de couplage, c.-d-d., les appariements 
statistiques et exacts, et on recommande l'ex- 
ploitation des données administratives. 


L'utilité des données couplées réside dans la 
valeur percue des dossiers longitudinaux qui 
pourraient @6tre construits a la suite du couplage 
initial. Ces dossiers offrent aussi d'autres 
avantages, tels que l'évaluation de la qualité 


des données tirées des dossiers du recensement. 


Le processus d'‘appariement et les problémes 
conceptuels et techniques sous-jacents’ font 
l'objet d'une discussion détaillée qui intéres- 
sera les spécialistes. Aux yeux du non-spécia- 
liste bien informé, la discussion sera peut-—étre 
trop détaillée et par conséquent fastidieuse. 
Cette partie explique les raisons pour lesquelles 
on a prélevé l'échantillon des dossiers du recen- 
sement plutét que de l'univers des déclarations 
d'impé6t, le choix des variables d'appariement et 
l'exécution des routines d'appariement. 


L'analyse post—appariement fait la distinction 
entre la revue méthodologique, qui évalue l'effi- 
cacité du couplage, et l'évaluation de la décla- 
ration des revenus. Bien que cette derniére &éva- 
luation ne s'appuie, dans le cas du recensement, 
que sur les différences observées entre deux 
sources pour des répondants identiques, elle doit 
tenir compte des effets combinés des non-réponses 
et des réponses partielles, de la substitution 
d'éléments a la suite de différences dans 
l'interprétation et l'instrument (formulaire de 
l'imp6t, questionnaire du recensement) et des 
erreurs de traitement, y compris les 6carts 
youlus attribuables au contréle et a 1l'imputa- 
tion. 


The effect of reporting differences is 
presented in various dimensions. It will be 
of greater interest to the producer of 
statistics rather than the user. Some of the 
users may view the observed differences with 
suspicion, but they should be reminded that 
data and statistics contain imperfections 
just like any other product. The producers' 
endeavour to control and improve data 
quality is reflected in the undertaking of 
studies such as this one. 


Non-matches form a subset of particular 
interest. They do not contribute anything to 
the assessment of data quality, but they do 
invite a number of questions. Non-matches 
are largely the result of missing counter- 
parts of census records in the tax uni- 
verse. Such absences are justified as a 
rule, but they underline the limitation of 
statistical information derived solely from 
tax records. 


The postscript contains conclusions of a 
fairly general nature; i-e., not only as far 
as this particular exercise is concerned, 
but concerning data collection and quality 
control in general wherever such data are to 
be used for linkage applications. The post- 
script also points towards alternative 
linkage applications or alternative data 
sources for such application. These alter- 
natives are not presented with the firmness 
of a recommendation, but they could provide 
a basis for discussion. 


10 


Les effets des différences de déclaration sont 
présentés sous plusieurs angles et intéresseront 
pluté6t les producteurs de statistiques que leurs 
utilisateurs. Certains utilisateurs é&prouveront 
de la méfiance envers les différences observées 
mais ils ne doivent pas oublier que les données 
et les statistiques, comme tout autre produit, ne 
sont pas parfaites. La réalisation d'études co 
celle-ci traduits les efforts de producteurs er 
vue de contréler et d'améliorer la qualité deg 
données. 


Les non-appariements forment un sous-ensemble 
d'une intérét particulier. Ils ne contribuent er 
1'évaluation de la qualité mais ik 
suscitent un certain nombre de questions. Leg 
non-appariements résultent principalement dé 
l'absence dans l'univers des déclarations d'impédi 
d'éléments correspondants des dossiers du recen; 
sement. Ces absences sont généralement justifiéey 
mais elle font ressortir les limites des informa; 
tions statistiques tirées uniquement de déclara» 
tions d'impét. 


rien 4a 


Le post-scriptum renferme des conclusion: 
d'une portée générale qui vont au-dela de Ij 
présente 6tude et concernent la collecte et li 
contréle de la qualité des données en généra 
dans tous les cas ot celles-ci servent au cou: 
plage. Le post-scriptum propose aussi d'autre 
applications du couplage ou sources de donnée 
utiles dans ce contexte. Celles-ci n'y sont pa 
présentées comme des recommandations mais comm 
base possible de discussion. 


_ Data and information are not necessarily 
ynonymous. An abundance of unrelated data 
ay convey little information, whereas a 
11 but well-selected data base may demon- 
trate high informative values. The degree 
usefulness derived therefrom, of course, 
epends on the needs of the analyst. 


One of the great challenges facing sta- 
istical agencies is to meet the increasing 
fata needs of users involved in monitoring 
ind assessing current economic or social 
Olicies, and developing alternative policy 
yroposals. Business users need information 
9 improve their productivity, academics 
strive for a better understanding of contem- 
orary phenomena, and the general public 
fishes to be better informed about its 
‘vironment. To satisfy these demands for 
nformation with a minimum of expenditure 
nd without imposing undue response burden 
n the population, record linkage offers 
tself as an alternative to conventional 
ata collection and data assembly methods. 
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The word linkage implies that records 
‘rom existing data sources are combined, 
thereby forming a data base which contains 
nore comprehensive information than its 
constituent parts. 

While such a procedure may have cost 
advantages for the Bureau, and while respon- 
jents are spared the answering of question- 
jaires, there are also some negative aspects 
t0 be considered. These are caused by the 
wublic's perception of record linkage 
activities. 


_ Statistics Canada is aware of the general 
feeling of concern regarding record link- 
age. It is important, however, to keep in 

md a basic distinction between different 
record linkage applications. This distinc- 
ion relates to the intended end use of the 
linked files and the extent to which their 
confidentiality is protected. At least two 
basic categories of end use must be distin- 
Zuished: administrative and statistical. Use 
o£ data for administrative purposes implies 
that information about an identifiable 
[Individual is directly used in some decision 
dbrocess which relates to the individual. 
fost of the concern about record linkage 
applies to this type of use, since individ- 
aals have no control over someone's combin- 
Ing information about them; information 
which they supplied to different data 
rollection agencies for different purposes. 


COUPLAGE DES DOSSIERS 


Remarques liminaires 


Les concepts associés aux termes données et 
information ne sont pas nécessairement synony- 
mes. Des masses de données disparates peuvent 
avoir un contenu informatif négligeable; en 
revanche, une base de données peu @tendue, mais 
bien choisie peut avoir une valeur informative 
élevée. L'utilité des données se mesure donc en 
fonction des besoins de L'analyste. 


L'un des grands défis que doivent relever les 
organismes statistiques est celui de satisfaire 
aux besoins en données croissants d'utilisateurs 
qui sont chargés de contréler et d'évaluer les 
politiques économiques ou sociales actuelles et 
d'élaborer des politiques de rechange. En outre, 
les entreprises ont besoin d'information pour 
améliorer leur productivité, les universitaires 
cherchent 4 mieux cerner les phénoménes contempo- 
rains et le grand public désire en savoir davan- 
tage sur son environnement. Pour répondre 4 
toutes ces demandes de renseignements en minimi- 
sant les frais et le fardeau de réponse imposé 
aux enquétés, il conviendrait peut-étre de 
recourir au couplage des dossiers plutét gqu'aux 
méthodes conventionnelles de collecte et de 
rassemblement des données. 


Le terme couplage indique que les dossiers 
émanant de sources existantes de données. sont 
groupés en vue de constituer une base de données 
qui aura une plus grande valeur informative que 
ses éléments constitutifs. 


Bien que cette méthode soit rentable pour le 
Bureau et qu'elle dispense les enquétes_ de 
l'obligation de remplir des questionnaires, elle 
comporte néanmoins certains aspects négatifs liés 


aA la perception qu'a le public des activités 
entourant le couplage des dossiers. 


Statistique Canada est bien conscient des 
préoccupations qui se rattachent au couplage des 
dossiers. Il importe toutefois de rappeler une 
distinction fondamentale entre les diverses 
applications du couplage, distinction qui met en 
cause l'utilisation finale des dossiers couplés 
et la mesure dans laquelle on en protége le 
secret. En effet, il existe au moins deux grandes 
catégories d'utilisation finale, a savoir L'admi- 
nistrative et la statistique. Dans le cas d'une 
utilisation de données a des fins administrati- 
ves, l'information concernant un individu identi- 
fiable est directement consacrée a un processus 
décisionnel qui affecte L'individu. La plupart 
des critiques formulées contre le couplage des 
dossiers visent effectivement ce genre d'utilisa~ 
tion, puisque les particuliers n'ont ainsi aucun 
contréle sur celui qui recueille a leur sujet des 
renseignements qu'ils ont fournis pour divers 
motifs a différents organismes de collecte. le 


Using these combined data in an administra- 
tive or decision-making context directly 
affects the individual, perhaps in a fashion 
which he or she may consider harmful. By 
contrast, when linked data are used for a 
statistical purpose, the resultant file is 
utilized only to provide statistical aggre- 
gates or distributions, while keeping the 
identity of the individuals concerned 
atrictly \oconfidential.s In» thes»case of 
Statistics Canada, such confidentiality is 
guaranteed by legislation which contains 
severe penalties against its violation. 
Furthermore, over and above the legal obli- 
gations, in the present application extra- 
ordinary care has been taken to ensure that 
the required confidentiality of the data is 
actually preserved in practice. 


The choice of the data sources for 
linkage is critical. Data to be used as 
linkage characteristics have to be concep- 
tually compatible, their reference periods 
must be identical, or must be capable of 
being made to conform by some adjustment 
process. Furthermore, data used for linkage 
decisions should be of exceptional quality. 


These characteristics of input data to 
linkage processing are not exhaustive, but 
they are important for the understanding of 
the process. The linking of data is not 
extraordinarily difficult, but whether such 
an augmented data base contains simply more 
data or whether it contains more information 
depends largely on the choice and quality of 
the input data. 


One must distinguish between synthetic or 
statistical links and direct or exact 
links. A synthetically linked record com- 
bines data from two or more records, where 
these combined data refer typically to 
different units having similar characteris- 
tics. One of the pioneering efforts can be 
attributed to Okner.(1) In the Canadian 
context a linkage of two household surveys 
as described by Alter(2) serves to illus- 
trate this type of data assembly. 


Direct linkage combines data originating 
with the same identifiable unit, such as the 
individual, the family, or the corporation. 
One form of direct linkage employs records 
of individuals, where these records origi- 
nate in different time periods, although 
they had been submitted to the same agency; 
e.g., the linkage of tax returns by Revenue 
Canada to previous returns of the same indi- 
vidual for averaging purposes. 


See footnote(s) at end of text. 
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recours a des données regroupées dans un context 
d'administration ou de prise de décision touch 
directement l'individu d'une maniére qu'il peu 
juger comme nuisible. Par contre, lorsqu'on s 
sert de données couplées a des fins statistiques 
le dossier qui en résulte n'est utilisé que pou 
présenter des agrégations statistiques ou de 
distributions tout en gardant l'identité de 
individus strictement confidentielle. En ce qu 
concerne Statistique Canada, la confidentialit 
est assurée par une loi dont la violation es 
assortie de peines sévéres. Outre cette protec 
tion officielle, toutes les mesures ont &t 
prises pour que soit effectivement respectée & 
pratique la confidentialité des données. 


Le choix des sources de données a coupler es 
de prime importance. Les données qui serviront ¢ 
caractéristiques de couplage doivent é6tre concep; 
tuellement compatibles, avoir la méme période ¢ 
référence ou, a défaut, pouvoir subir les ajuste 
ments requis. Enfin, les données déterminant le 
décisions de couplage devraient 6tre d'une qué 
1ité exceptionnelle. 


Cette liste de caractéristiques des donné¢ 
soumises au couplage n'est pas exhaustive, mai 
elle facilitera la compréhension du processus. | 
couplage proprement dit ne pose pas de problémeé 
extraordinaires; la réussite de l'opération tier 
largement au choix et a la qualité des donnée) 
d'entrée: la nouvelle base de données ne contier; 
pas simplement plus de renseignements, sa valev 
informative s'est accrue. 


Etablissons tout d'abord une distinction ent1) 
les couplages synthétiques ou statistiques ¢) 
les couplages directs ou exacts. Le couplage sy1) 
thétique groupe des données tirées de deux dos 
siers ou plus portant sur des unités distinctt 
qui ont des caractéristiques analogues. Okner(! 
a jou€é en cette matiére un réle de pionnier. / 
Canada, le couplage de deux enquétes—ménagt 
décrit par Alter(2) illustre bien ce genre d'opi 
ration. 


Dans le couplage direct, on groupe des donnéi 
qui émanent d'une m@éme unité: une personne, wi 
famille, une entreprise. Dans l'une des formes 
couplage direct, on groupe des déclarations po 
tant sur des périodes différentes, mais soumis: 
par le méme organisme; c'est ce qu'on fait | 
Revenu Canada, par exemple, quand on groupe 1) 
déclarations d'impét d'une méme personne poy 
€établir des moyennes. 


Voir note(s)ea la finvedu texte. i 


Direct linkage for statistical applica- 
ons usually involves the identification of 
uits of observation in various data sources 
id subsequently the combining of these 
scords. Like linking parts of a jig-saw 
izzle, the completed picture will be more 
formative than the impressions gained from 
s disjointed parts. 


While the unit of observation has to be 
entified without ambiguity in order to 
cilitate the link, the identity has no 
satistical value and is removed once data 
ssembly has been completed. A_ parallel 
cists in standard survey methodology, where 
lentities are known for control purposes 
id follow-up procedures, but where identi- 
es do not form part of statistical working 
_les. 


: 
] 


' Moreover, recognizing the basic nature of 
iministrative as opposed _ to statistical 
ses of data, and given the strict confiden- 
‘ality provision of the Statistics Act, 
vis Act explicitly authorizes access by 
catistics Canada for statistical purposes 
» Revenue Canada-Taxation (RC-T) tax 
-les. Such access is carefully controlled 
1 agreement with RC-T and, of course, most 
aiphatically does not involve any access by 
2-T to individually identifiable data held 
7 Statistics Canada. 

In completing the general overview it is 
rth noting that the most comprehensive 
rk in creating linked data files was 
sobably carried out by the Social Security 
Iministration of the United States Depart- 
ant of Health, Education and Welfare, in 
Operation with the United States Bureau of 
1e Census and the Internal Revenue: Ser- 
ice.(3) In Canada, work of considerable 
cactical value was done under the auspices 
¢ Atomic Energy of Canada Limited.(4) Work 
= appreciable theoretical interest in the 
yntext of direct linkage is contained in an 
rticle by Fellegi and Sunter.(5) 


Some of the work cited above served as a 
tide or as inspiration. Some findings 
1erein confirmed that theory has to. be 
empered with empiricism in order to tailor 
mperfect data to an operationally feasible 
sthodology. 


With these introductory remarks in mind, 
ne rationale for performing a direct link 
fF a sample of 1971 Census records and of 
ompatible tax returns will now be ex- 
lained. The rationale is justified by data 
2eds, but these could not be satisfied 
ithout modern computer technology. 


ee footnote(s) at end of text. 


ie: 


Dans ses applications Statistiques, le cou- 
plage direct comporte généralement l'identifica- 
tion d'unités d'observation de diverses sources 
de données, puis le couplage des dossiers 
voulus. Comme dans un casse-téte, l'image finale 


nous renseigne plus que L'impression dégagée par 
chacune des piéces. 


Bien que lL'unité d'observation doive étre 
définie sans ambiguité pour faciliter le cou- 
plage, son identité n'a aucune valeur statisti- 
que, et on n'en tient pas compte une fois que le 
couplage des données est terminé. On peut faire a 
cet @gard un paralléle entre le couplage et la 
méthodologie de la majorité des enquétes; en 
effet, les moyens d'identification utilisés a des 
fins de contréle et de suivi ne font pas partie 
des fichiers de travail statistiques. 


Il existe, rappelons-le, une nette distinction 
entre les utilisations administratives des don- 
nées et leurs applications statistiques; de plus, 
la Loi sur la statistique renferme des disposi- 
tions rigoureuses en matiére de confidentialité 
et autorise explicitement, a des fins statisti- 
ques, L'accés de Statistique Canada aux dossiers 
fiscaux de Revenu Canada-Imp6t (RC-I). L'accés 
est soigneusement contr6lé en collaboration avec 
RC-I, mais ce ministére n'est évidemment pas 
autorisé a consulter, de quelque maniére que ce 
soit, les données identifiables de Statistique 
Canada. 


Avant de mettre un terme a cette introduction, 
il convient de noter que le plus important 
travail de couplage a probablement été réalisé 
par l'Administration de la sécurité sociale du 
ministére américain de la Santé, de 1'f£ducation 
et du Bien-étre, en collaboration avec le bureau 
américain du recensement et le service du 
revenu(3). Au Canada, des travaux d'une valeur 
pratique indéniable, ont été faits sous les aus- 
pices d'fEnergie atomique du Canada Limitée(4). 
Enfin, on trouvera un présentation de travaux de 
couplage direct ayant un intérét théorique mani- 
feste dans un article de Fellegi et Sunter(5). 


Certains de ces travaux nous ont guidés ou 
inspirés. Les résultats qu'on y présente confir- 
ment que la théorie doit s'appuyer sur l'expé- 
rience si l'on veut pouvoir adapter des données 
imparfaites 4 une méthodologie opérationnelle. 


Ces remarques étant faites, nous verrons main- 
tenant pourquoi nous avons tenté de coupler 
directement un échantillon de dossiers du recen- 
sement de 1971 a un groupe compatible de déclara- 
tions d'impét. A la _ base, L'opération était 
justifiée par un besoin de données que seule la 
technique informatique moderne pouvait satis- 


faire. 


Voir note(s) a la fin du texte. 


The Need for Linked Data 


Need can best be expressed in terms of 
more information for the purpose of analys- 
ing complex issues. A link of census data 
and tax records provides more information by 
presenting a more complete picture of the 
population than any one of these sources 
does in isolation. Cost and technical limi- 
tations, however, prohibit the linking of 
all census records to tax records. Thus, a 
sample of census data had to be employed, 
and a sample of Census data is all that can 
feasibly be used, given present technology 
available to the Bureau and resulting re- 
source constraints. 


The linked file shows a number of advan- 
tages over its constituent parts. It com- 
bines detailed socio-demographic data from 
the Census with reliable income data from 
Revenue Canada-Taxation (RC-T). Remember 
that RC-T records are virtually devoid of 
socio-demographic data, whereas Census 
income information is probably subject to 
appreciable reporting errors. The linked 
file thus permits a study of the quality of 
income reporting in the Census. It also 
permits the quantification and analysis of 
errors of income reporting in the Census.(6) 
Furthermore, a linked file permits income 
aggregation for families on an RC-T basis, 
despite the RC-T impediment of identifying 
individuals without associating them with 
family units. Census individuals, on the 
other hand, can be placed as members of 
family units. Consequently, established 
census family relationships in a linked file 
will supply family income as reported to 
BGa ie 


The most important reason for creating a 
linked file must be seen in its capability 
to be updated annually with tax records for 
individuals in the sample, provided they 
remain taxfilers. The resulting data base 
permits longitudinal analysis, i.e., the 
analysis of identical units over time. 
Usually, longitudinal data have to be col- 
lected through repeated interviews by way 
of panel surveys.(7) 


Longitudinal data satisfy a number of 
needs which cannot be met by cross-section 
data. Any single set of cross-section data, 
of course, is only a snapshot of the uni- 
VErSe Wal a specific _ point © ini «times Lo 
measure change, the use of several cross- 
section series is required, but such a trend 


See footnote(s) at end of text. 


Utilité des données couplées . 
a oom | 


L'utilité des données couplées tient au fai 
que leur grande valeur informative facilit 
l'analyse de questions complexes. Le couplage de 
données du recensement et des  déclaration 
d'imp6t, par exemple, nous donne une meilleur 
image de la population que chacune de ces source, 
de renseignements prise isolément. Des contrain 
tes d'ordre financier et technique rendant impos 
sible le couplage de tous les dossiers du recen 
sement Aa des déclarations d'impét, nous avons d 
utiliser un @échantillon de données du ce 
ment. D'ailleurs, seul un @échantillon de donn 
peut raisonnablement faire l'objet d'un couplage 
vu les possibilités techniques dont dispos 
aujourd'hui le Bureau et les compressions budgé) 
taires que cela entrafne. 


Les dossiers couplés offrent de nombreux avat, 
tages. Ils nous permettent de coupler les donnée 
socio-démographiques détaillées du recensemer 
aux chiffres fiables sur le revenu de Revert 
Canada-Imp6t (RC-I). On se rappelera que le 
dossiers de RC-I ne contiennent pratiquemer! 
aucune donnée socio-démographique, alors que le 
chiffres du recensement sur le revenu sont prob 
blement entachés d'erreurs de déclaration apprt 
ciables. Le couplage des dossiers nous perm 
donc d'étudier la qualité de la déclaration | 
revenu 4 l'occasion du recensement. Grace au coi 
plage, on peut également quantifier et analysi 
les erreurs de déclaration des revenus lors | 
recensement(6). Enfin, l'opération rend possib 
le calcul du revenu familial a partir @ 
chiffres de RC-I, bien que Revenu Canada, pj 
souci d'efficacité, n'associe pas les personn 
aux unités familiales auxquelles elles appartie 
nent. Au recensement, par contre, les individ 
peuvent 6tre rattachés 4 une unité familiale. | 
couplage nous permet donc de calculer les reven 
familiaux en fonction des chiffres déclarés. 
RC= ig. 


| 


Le principal facteur motivant la création d‘ 
dossier couplé est l'aptitude de celui-ci 4 6ét 
mis a jour chaque année grace aux dossiers fi 
caux des individus qui composent 1'échantillon, 
condition qu'ils continuent de produire le 
déclaration. La base de données résultante fav} 
rise l'analyse longitudinale, c'est-a-dire l'ar] 
lyse d'unités identiques dans le temps. IT} 
données longitudinales sont normalement recuei}, 
lies au moyen d'interviews successifs aup!} 
d'un @chantillon constant(7). | 


Les données longitudinales répondent A 
certain nombre de besoins que ne peuvent sati}, 
faire les données transversales. Un seul ensemb}) 


t 
l} 


de données transversales ne représente, bien si} 


Afin de mesurer la variation, il faut faire ap} }, 
a plusieurs séries transversales; l'analyse i} 


Voir note(s) a la fin du texte. 


alysis can only measure net change, not 
oss change. Moreover, causality is diffi- 
it to infer from trend analysis. The 
usal relationships, if they exist, and if 
ey are time-related, can be more easily 
died with longitudinal data. It is here, 
at panel surveys would have an advantage 
er “updating procedures" because special 
estions to probe or establish causality 
uld be asked. 


The understanding of causality is very 
portant for policy formulation and the 
Mitoring of policy impact. Policy may be 
Signed to produce change, or it may be 
Signed to be neutral, but the intent may 
“may not coincide with subsequent events. 
be able to measure the resulting policy 
ects the time frame as well as_ the 
bss-change concept are critical. In the 
treme, a zero net change may be inter- 
2ted as a neutral policy effect, whereas 
reality, there was a positive effect on 
2 part and a negative effect on another 
rt of the population, having resulted in 


ansfers" - an effect which is quite 
fferent from a zero impact. 
There are technical and cost consider- 


fons that have to be evaluated when 
ntemplating the inception and use of 
hgitudinal data. However, this decision is 
‘least one step removed from the present 
Wertaking because linkage is a necessary 
ndition for producing a _ longitudinal 
le. Consequently, the task at hand had to 


De with the feasibility and cost 
-ectiveness of record linkage, although 
hg-range objectives had to be kept in 


d. 


Matching of Tax and Census Records 


The cost and the technical feasibility of 
ensus-taxation link had been explored in 
pilot study. This pilot study contained 
ghtly over 2,000 households in Eastern 
ario. The study also contributed appreci- 
ly towards the development of a viable 
ching procedure, which was then employed 
‘ linking the statistical sample. 


The feasibility of matching is heavily 
endent upon the size of the _ files 
‘olved. Theoretically, any record from an 
Tlapping set in file “A” (A;) and in file 
(By) can be linked, but the number of 
rehes or comparisons to be executed 
ends on the number of similar records in 
subset to be searched; that is, “simi- 

in terms of identifying information. 
y if an individual's identifier is unique 


no 


tendances qui en découle ne peut toutefois mesu- 
rer que la variation nette, et non la variation 
brute. En outre, il est difficile de déduire les 
rapports de cause a effet 4 partir d'une analyse 
des tendances. Par contre, les données longitudi- 
nales facilitent l'étude de ces rapports, s'ils 
existent et qu'il sont liés dans le temps. Aussi 
les enquétes réalisées auprés d'un é6chantillon 
constant ont-elles un avantage sur les “méthodes 
de mise a jour", car elles permettent de poser 
des questions spéciales en vue de préciser ou de 
déterminer la causalité. 


Une compréhension de la causalité est essen- 
tielle 4 la formulation des politiques et au 
contréle de leur incidence. Qu'une politique soit 
destinée da provoquer un changement ou a rester 
neutre, son objectif peut ne pas correspondre aux 
événements subséquents. On ne peut mesurer 1l'im- 
pact d'une politique sans tenir compte du temps 
et de la notion de la variation brute. A la 
limite, une variation nette nulle peut étre con- 
sidérée comme l'effet d'une politique neutre; en 
réalité, cependant, il s'est produit un effet 
positif sur une partie de la population et un 
effet négatif sur ume autre; ces effets se 
soldent par des ‘“transferts", qui sont fort 
différents d'une incidence nulle. 


Si l'on songe a créer et a exploiter des 
données longitudinales, on doit d'abord prendre 
en compte certains facteurs d'ordre technique et 
pécuniaire. Evitons cependant de bréler les éta- 
pes: le couplage est une condition nécessaire de 
1'établissement d'un fichier longitudinal. Notre 
tdche immédiate consiste donc a déterminer la 
faisabilité et la rentabilité du couplage des 
dossiers, sans oublier pour autant les objectifs 
a long terme. 


Appariement des dossiers de l'impét et du recen— 


sement 


Le coit et la faisabilité technique du cou- 
plage recensement-impét ont été examinés dans une 
étude pilote qui portait sur un peu plus de 2,000 
ménages de l'est de l'Ontario. L'étude a égale- 
ment fait progresser considérablement les techni- 
ques d'appariement utilisées dans le couplage de 


l'échantillon statistique. 


Les possibilités d'appariement sont intimement 
liées au nombre de dossiers. Théoriquement, tous 
les dossiers de deux fichiers identiques "A" (Ay) 
et "B" (By) peuvent étre appariés. Toutefois, le 
nombre de recherches et de comparaisons qui doi- 
vent @tre faftes est fonction du nombre de dos- 
siers identiques au sein du sous~groupe étudié, 
“identiques” s'‘entendant ici au sens de “rensei- 
gnements d'identification". Seule L'utilisation 
d'un identificateur unique et sans erreur peut 


and error-free, can the size of the input 
files be subordinated to other consider- 
ations. The census-taxation link, was not 
carried out under such ideal conditions. 
Consequently, size had to be controlled, and 
a sample had to be chosen. 


The sample was selected from the Census 
(primary file), and the search file (second- 
ary file) consisted of the personal identi- 
fication file (RC-T) for the 1970 taxation 
year. This taxation year conforms to the 
income reference year for the 1971] Census, 
which is the 1970 calendar year. Identifying 
data are recorded only a few months apart. 
Most tax returns reflect the individual's 
status as it existed between January and May 


1971, and Census data reflect the corre- 
sponding person's status as of June l, 
1971 


Identifying data, such as marital status, 
mailing address, and even name, change with 
time. Consequently, concordance of the 
chosen time frame is important, whenever 
such data have to be utilized for linkage 
applications. 


The sample could have been selected from 
RC-T, and the Census could have been used as 
the search file, but a number of reasons 
dictated against such an approach. First of 
all, RC-T files permit the selection of 
individuals only. Thus, any linked file 
becomes a file of individuals; or conver- 


sely, a file of families can not be con- 
structed with RC-T data as the primary 
source. Secondly, identifying information 


for Census records was not’ stored in 
machine-readable form. Because the complete 
secondary file has to be searched when 
attempting to match a sample, the utiliz-— 
ation of the Census as the secondary file 
would have necessitated the capturing of 
identifying data for all Census records. 
When using the Census as the primary file 
and selecting a sample therefrom, additional 
data capture has to be carried out for the 
chosen sample only. With RC-T identifying 
information in machine-readable form, the 
data capture effort is minimized by our 
choice of primary and secondary files. 


The Census sample was selected from the 
so-called 2B-file. This file is based on the 
long questionnaire, completed in 1971 by 
approximately one third of all households, 
and contains comprehensive socio-economic 
data, including income information. On the 
other hand, the 2A-file, which is based on 
the short Census questionnaire, is devoid of 
income data, and socio-demographic informa- 
tion is relatively scarce. 


16 


contribuer 4 éliminer le probléme posé par le 
nombre des dossiers. Le couplage recensement 

impé6t ne s'est pas fait dans de telles conditions| 
idéales. On a donc di constituer un échantillony 


} 

L'échantillon a 6té créé a partir des dossiers 
du recensement (fichier primaire); le fichier dé 
recherche (fichier secondaire) était le fichier 
d'identification des particuliers (RC-I) pou 
l'année fiscale 1970. L'année fiscale est analo: 
gue a l'année de référence utilisée pour le 
revenu a l'occasion du recensement de 1971; elle 
équivaut a4 l'année civile 1970. Les donné@ 
d'identification n'avaient &té enregistrées qu"? 
quelques mois d'écart. En effet, la plupart deg 
déclarations d'imp6t portent sur le statut degl 
particuliers entre janvier et mai 1971, alors qut 
les données du recensement correspondent a leu) 


statut.eu T=) juin 1977. 


Les données d'identification telles que 1'étaj 
matrimonial, l'adresse postale et méme le no 
changent. Il est donc important que les cadreg} 
temporels choisis concordent si ces données dois 
vent @tre utilisées dans l'appariement. 


On aurait &également pu constituer 1'échantil* 
lon a partir des fichiers de RC-I et utiliser le: 
résultats du recensement comme fichier de recher* 
che. Cette approche n'a pas 6té retenue pou) 
plusieurs raisons. Tout d'abord, les fichiers d 
RC-I ne permettent que le choix de particuliers 
Il n'est done pas possible de constituer wu 
fichier de familles si l'on utilise les chiffre 
de RC-I comme source de base. Deuxiémement, lei} 
données d'identification des dossiers du recensel} 
ment ne sont pas stockées sous une forme lisibl) 
par machine. Comme les recherches portent sur Ll} 
totalité du fichier secondaire, il aurait fall@ 
saisir les données d'identification de tous le 
dossiers du recensement. En revanche, en utili/} 
sant le recensement comme fichier primaire et e] 
s'en servant pour constituer un échantillon, nou 
n'avions qu'ad saisir les données d'identificatio 
des dossiers choisis. Enfin, comme les donnée 
d'identification du fichier de RC-I sont lisible 
par machine, le choix des fichiers primaire e 
secondaire que nous avons fait limitait au mini’ 
mum le travail de saisie des données. 


L'échantillon du recensement a 6té constitué 
partir du fichier 2B. Ce fichier est é6tablii 
partir de questionnaires détaillés, remplis e 
1971 par environ un ménage sur trois; ces ques 
tionnaires contiennent d'abondantes donnée 
socio-&économiques, et notamment des renseigne 
ments sur le revenu. Le fichier 2A, par contre 
est constitu€é a partir des questionnaire 
abrégés; il contient peu de renseignements { 
caractére socio-démographique et aucune donné’}) 
sur le revenu. 


The sample was selected as a clustered 
ratified sample. Enumeration areas (EA) 
re selected in the first stage. These EA's 
re stratified within provinces according 
» their metropolitan-urban-rural designa- 
fon. Out of slightly over 42,000 EA's, 
771 EA's comprised the first stage of the 
mple. These EA's were then subsampled by 
electing every 12th household from a random 
art. This procedure yielded a sample of 
6,357 individuals comprising about 33,000 
yuseholds. 


Once the households in the sample had 
sen identified, all usable personal identi- 
ers had to be captured from the Census 
zestionnaire and made machine-readable. 
afortunately, questionnaires could not be 
mated for 2,892 individuals, or 2.5% of 
e sample. This shortcoming removed 2,047 
lults as potential matches. 


The scope of identifying information was 
stermined by the RC-T file content, for 
aly data conceptually compatible and 
resent on both files could be used for 
eaching linkage decisions. Names, address, 
and month of birth had to be transcribed, 
pd year of birth had to be verified. Sex 
id marital status, however, were taken from 
e machine-readable Census file and made 
erically equivalent to codes in the RC-T 
ile. 


The data strings for matching consisted 
Mame and address information, month and 
ear of birth, sex, marital status, and 
here applicable, the first four characters 
the given name of a person's’ spouse. 
ddresses on machine-readable RC-T records 
to be reformatted and separated into 
h components as locality code, place 
ame, postal code, box number, rural route 


mber, civic number (house number) and 
treet name.(8) 
For subsequent file manipulations, a 


meric Census identifier was carried to 
ermit the merging of linked records to the 
ensus file after all other identifiable 

ormation had been deleted. Similarly, the 
o- account number and the Social Insurance 

nber were carried on the RC-T data string 
0 permit linkage to a separately maintained 
C-T income file. These identifiers will 
lso be needed when updating records over 
ime without resorting to the use of conven- 
ional identifying information, because such 
nformation was deleted upon completion of 
he link between Census and RC-T records. 


ee footnote(s) at end of text. 
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L'échantillon choisi était un échantillon 
Stratifié par grappes. Dans une premiére étape, 
on a tiré les secteurs de dénombrement (SD). Ces 
SD ont été stratifiés par province en fonction de 
leur région d'appartenance (régions métropolitai- 
nes, urbaines et rurales). Il y avait au total 
42,000 SD; de ce nombre, on en a choisi 2,771 
dans une premiére étape. Ces SD ont ensuite été 
sous-échantillonnés, chaque 12e ménage étant 
retenu (le départ avait fixé au hasard). Nous 
avons ainsi obtenu un @échantillon de 116,357 per- 
sonnes formant environ 33,000 ménages. 


Aprés que les ménages de l'échantillon aient 
été identifiés, tous les identificateurs person- 
nels utilisables ont été saisis et rendus 
lisibles par machine. Malheureusement, nous 
n'avons pas pu trouver le questionnaire de 2,892 
répondants, soit 2.5% de l'échantillon. 2,047 
adultes ont ainsi été éliminés de 1l'appariement. 


Le choix des renseignements d'identification 
était fonction du contenu des fichiers de RC-I; 
en effet, seules des données conceptuellement 
compatibles et présentes dans les deux fichiers 
pouvaient étre utilisées dans le couplage. Le 
nom, l'adresse et le mois de naissance des répon- 
dants ont @té transcrits; l'année de naissance a 
été vérifiée. Le sexe et l'état matrimonial, par 


contre, ont été directement tirés des fichiers 
lisibles par machine du recensement et rendus 
numériquement équivalents aux codes du fichier 


RC=i . 


Les chafines de données utilisées dans l'appa- 
riement comprenaient le nom et l'adresse, le mois 
et l'année de naissance, le sexe, l'état matrimo- 
nial et, le cas é@échéant, les quatre premiéres 
lettres du prénom du conjoint. Il a fallu changer 
la présentation des adresses figurant dans les 
dossiers de RC-I et décomposer celles-ci en 
plusieurs éléments: code de localité, nom de 
localité, code postal, numéro de case, numéro de 
route rurale, numéro de porte et nom de rue(8). 


Pour faciliter les manipulations ultérieures, 
on a utilisé un identificateur numérique du 
recensement afin de permettre la fusion des dos- 
siers couplés a ceux du fichier du recensement 
aprés la suppression des autres renseignements 
identifiables. De la méme fagon, le numéro de 
compte de RC-I et le numéro d'assurance sociale 
ont été intégrés aux chaines de données de 1" im- 
pot afin que ces dossiers puissent é6tre appariés 
3 un fichier indépendant de RC-I. Ces identifica- 
teurs seront utilisés lors de la mise 4 jour des 
dossiers; en effet, les données d'identification 
habituelles ont 6té supprimées dés que le cou- 
plage des dossiers du recensement et de l'impét a 
été terminé. 


Voir note(s) a la fin du texte. 


Matching was carried out by computer, and 
a set of routines was programmed to decide 
whether or not a given comparison consti- 
tuted a matched record pair. In a few cases, 
a number of record pairs was presented for 
manual assessment because alternative record 
pairs could not be declared positively to be 
matches or non-matches. A so-called hand- 
match had to be processed under’ these 
circumstances. 


The primary aim of the decision-making 
process was speed combined with accuracy. To 
facilitate processing with these criteria in 
mind, the file was partitioned into 100 data 
blocks. The dividing lines were governed by 
alphabetic designators, which were made up 
of the first five characters of a person's 
surname.(9) Within these alphabetic blocks, 
files were sorted by surname, month of 
birth, and year of birth. A sort by locality 
code was also performed, but it was used 
only in those instances where names with 
high frequencies had to be restricted within 
geographical boundaries. 


Routines to decide on the linkage status 
of record pairs were designed in the form of 
two separate rounds of interrogation. The 
first round attempted to locate all those 
matches which had a high probability of 
being true. The second round assessed the 
leftovers from the first round, but only 
those with a reasonable expectation of being 
in the tax universe. Second-round input thus 
contained fewer records than first-round 
input, since first-round matches were no 
longer present. Moreover, all records with a 
low probability of being a taxfiler were 
also omitted from second-round processing. 


Out of approximately 33,000 households, 
79,000 adults were eligible for matching, 
and 39,000 were matched during the first 
round. Out of the remaining 40,000, only 
18,000 were re-entered and processed under 
round-two specifications. Each round, how- 
ever, necessitated our entering of all RC-T 
records, which varied between 52,000 and 
165,000 records depending on the subset to 
be linked.(10) 


To further minimize the computer work-—- 
load, each round was designed to make a 
positive disposition as to match or non- 
match as quickly as possible. Additional 
comparisons were made only if the affirma- 
tive or negative evidence was inconclusive. 
Thus, depending on the number of becords, ain 
comparison space, not all steps in a given 
round were always followed when declaring a 
match. Along the Way, several secondary 
records (candidates) were discarded aE 
evidence indicated that their chance of 
becoming a match was extremely low. 


See footnote(s) at end Of text. 


Voir note(s) a la fin du texte. 


L'appariement des dossiers s'est fait 
ordinateur. Des routines ont é&té spécialemer 
congues pour déterminer si les dossiers apparié 
étaient véritablement identiques. Dans quelque 
cas, les dossiers groupés ont été soumis a um! 
vérification manuelle, l'ordinateur n'étant pa 
en mesure de déterminer hors de tout doute qu 
les dossiers étaient identiques. L'appariemenj 
s'est alors fait manuellement. 


L'objectif premier de ce processus de décisig 
était d'accélérer l'appariement et d'en accroftr 
la précision. Pour faciliter le traitement, J 
fichier a été divisé en 100 blocs de données; 
division a &té faite en fonction des cinq premié 
res lettres du nom des répondants(9). Ces blog 
alphabétiques €étant constitués, les fichiers on 
été triés par nom, mois de naissance et année dq 
naissance. Un tri par code de localité a é&égale 
ment 6té fait; on ne 1a toutefois utilisé Wm 
dans les cas ot certains noms trés fréquent 
devaient 6tre restreints a un secteur géographi 
que donné. 


Les routines congues pour déterminer le statu 
d'appariement des paires de dossiers comportaien 
deux séries d'interrogations distinctes. La pre 
miére série avait pour but de trouver les appa: 
riements qui avaient une forte probabilité d'étrih 
bons. La deuxiéme série ne portait que sur lei} 
dossiers restants qui pouvaient raisonnablemeni 
se trouver dans l'univers de l'impé6t. La deuxiém 
série contenait moins de dossiers que 
premiére, car tous les dossiers correctemeni 
appariés ne s'y trouvaient plus. De plus, le 
dossiers ayant une faible probabilité de corres 
pondre a un contribuable étaient également omis 


Les 33,000 ménages de 1'échantillon compres 
naient 79,000 adultes pouvant faire l'objet d'uy 
appariement; de ce nombre, 39,000 ont été appa: 
riés pendant la premiére série d'interrogations 
Des 40,000 dossiers restants, seulement 18,00); 
ont €6té exploités pendant la deuxiéme série. | 
chaque occasion, toutefois, tous les dossiers dé 
RC-I devaient étre entrés, ce qui pouvait repré 
senter de 52,000 a 165,000 dossiers, selon lt 
sous-ensemble qui  faisait l'objet du _ cou 
plage(10). 


matique, chaque série d'interrogations a 6tlit, 
congue de facgon A pouvoir déterminer le plus 
rapidement possible si l'appariement était bon) 
Les autres comparaisons n'intervenaient qu'en cas 
de doute. Ainsi, compte tenu du nombre de dos: 
siers comparés, les diverses tapes d'une sérit 
n'avaient pas toutes lieu. Plusieurs dossier: 
(candidats) secondaires étaient 6éliminés s'ilt\t, 
avaient trés peu de chances d'étre appariés. ; 


The likelihood of matching a record pair 
s based on empirical evidence from the 
lot study.(11) Initially, a rough scoring 
heme was introduced based on the frequency 

certain variables but also considering 
eir reporting reliability. A point score 
s accumulated depending on the agreement 

disagreement of selected characteristics, 
ch as sex, marital status, given names, 
cality code, place name and other address 
mponents, always provided surname, month 

birth and year of birth agreed.(12) Sec- 
dary records with a very low score lost 
eir eligibility at certain check points. 

only one secondary record remained after 
imination of unsuitable candidates, and if 
is record had attained a certain score, a 
tch was declared. If the score of the 
ngle remaining record was low and not all 
eps in a round had been executed, addi- 
onal comparisons between characteristics 

the primary and secondary record were 
rried out. The final score thus attained 
termined the decision as to match or non- 
tch. 


Whenever more than one candidate remained 
comparison space, the final decision as 
which of these should be declared a match 
usually decided on the basis of the 
ghest score, provided the point spread was 
fficient. Where the point spread was only 
rginal, the personal exemption was used as 
e final decision-making variable. If a tie 
uld not be broken in this fashion, a 
sual examination or handmatch had to be 
rried out. There were only 46 hand matches 
the entire project. 


The explanations offered so far can only 
ghlight the procedure and illustrate the 
inciple involved. Some of these procedures 
11 become meaningful later, when observa- 
ons from linked record pairs will be 
scussed. 


After subjecting the primary file to two 
unds of matching routines, a set of 
tched record pairs and a set of non- 
tched primary records emerged. The second- 
y file was always used in its original 
ze; i.e., records linked as part of a 
tched pair were not withdrawn. Conse- 
ently, a secondary record could enter a 
tch several times. Obviously, only one of 
lese duplicate matches could be true. Since 

was relatively easy to locate duplicates 

the basis of their unique RC-T identi- 
ers, such conflicts were resolved after 
tching. A total of 87 duplicates had to be 
amined, and decisions with respect to 
eir match status had to be made. 


e footnote(s) at end of text. 
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Les chances d'appariement d'une paire de 
dossiers 6taient calculées sur des résultats 
empiriques tirés de l'étude pilote(ll). Dés le 
départ, on s'est servi d'un mode de notation 
grossier fond&é sur la fréquence de certaines 
variables et qui tenait également compte de la 
fiabilité des renseignements. Ainsi, on attri- 
buait au dossier une note qui tenait compte du 
fait que certaines caractéristiques telles que le 
sexe, l'état matrimonial, les prénoms, le code de 
localité, le nom de localité et les autres 616- 
ments de l'adresse concordaient ou non; le nom de 
famille, le mois de naissance et l'année de 
naissance devaient toujours concorder(12). Les 
dossiers secondaires ayant une trés faible note 
étaient 6liminés A certains points de contréle. 
Si un seul dossier secondaire demeurait aprés 
1'élimination des autres candidats et si ce 
dossier avait une certaine note, on déclarait 
qu'il y avait appariement. Si la note du seul 
dossier restant était trop faible et que les 
comparaisons n'avaient pas toutes été faites, les 
caractéristiques du dossier primaire et du 
dossier secondaire étaient examinées plus 4 
fond. C'est en fonction de la note finale ainsi 
obtenue qu'on déterminait s'il y avait apparie- 
ment ou non. 


Si plus d'un candidat demeuraient, la décision 
finale 6tait généralement faite en fonction de la 
note la plus élevée, pourvu que l'écart entre les 
notes soit suffisant. Si Il1'écart n'était que 
minime, la décision finale était fondée sur les 
exemptions personnelles. En cas d'égalité, 
l'appariement était fait a la main. Le phénoméne 
ne s'est présenté que 46 fois. 


Les explications données jusqu'ici ne font 
ressortir que les points saillants et les. prin- 
cipes de la méthode retenue. Certains aspects des 
procédures prendront leur pleine signification 
plus tard, quand nous examinerons les observa- 
tions qui ont pu é6étre faites 4 partir des 
dossiers couplés. 


Aprés avoir soumis le fichier primaire aux 
deux routines d'appariement, nous avons obtenu un 
groupe de dossiers appariés et un groupe de dos- 
siers primaires non appariés. Le fichier secon- 
daire conservait toujours sa taille originale, 
car les dossiers appariés n'étaient pas retirés. 
Il s'ten est donc suivi que certains dossiers 
secondaires ont 6té appariés plusieurs fois. De 
toute 6vidence, seul un de ces appariements était 
exact. Les dossiers de RC-I ayant un indicateur 
unique, il était relativement facile de trouver 
ceux qui avaient &té retenus a plusieurs occa- 
sions; les 87 conflits qui se sont ainsi présen- 
tés ont 6té résolus aprés l'appariement. 


Voir note(s) a la fin du texte. 


It may have become apparent by now that 
not all decisions as to match status (match 
or non-match) were valid. Such a decision is 
always probabilistic. Borderline cases 
caused by large comparison sets with many 
similar records, or containing conflicting 
evidence due to faulty or missing data, may 
lead to false decisions. Thus, the decision 
to declare a certain match status can be 
true or false. 


While one can accept the notion of a true 
match and a false match with relative ease, 
the notion of a true or false non-match is a 
bit more difficult to comprehend. Some non- 
matches are true; i.e., the primary record 
is. of such a’ nature’ that it, cannot be 
expected to have a counter-part in the tax 
file. Other non-matches are false; i.e., a 
match was not declared because a qualified 
candidate did not emerge, although the pri- 
mary record belonged to a respondent who 
could be expected to have filed a tax 
return, given the institutional setting in 
197.0% 


When a primary record remains unlinked, 
one cannot state explicitly what sort of 
comparison had been carried out, and what 
degree of agreement had been reached. How- 
ever, the comparison and degree of variation 
in matched records will provide some indica- 
tion of the data quality and its effect on 
the matching outcome. It is this data qual- 
ity which is largely responsible for false 
non-matches. 
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On pourrait croire que les décisions quant a 
statut d'appariement (appariement ou non-apparie 
ment) n'étaient: pas toutes justes. La chose esj 
difficile a déterminer. En effet, comme le 
comparaisons portaient sur de grands ensembles | 
dossiers souvent similaires ou qui comportaien 
des renseignements contradictoires (certaine 
données étant inexactes ou absentes), il es 
raisonnable de croire que certaines décisions 
peuvent @tre erronées. Ainsi, les décisio 
relatives 4 un statut d'appariement donné peuven 
étre vraies ou fausses. 


Bien qu'il soit relativement facile d'accepte 
qu'un appariement soit bon ou erroné, le conce 
de non-appariement bon ou erroné est un peu plus 
difficile A comprendre. Certains non-appariements 
sont justes: le dossier primaire est d'une tellé 
nature qu'il ne peut pas avoir une contrepartié¢ 
dans le fichier de l'imp6t. Certains non-apparie 
ments sont faux: on a décidé qu'il n'y avait pat 
appariement parce qu'aucun candidat qualifii 
n'est ressorti, méme si le dossier primair¢ 
appartenait a un répondant qui devait normalemeni 
avoir rempli une déclaration d'impét, étant donni 
le cadre institutionel de 1970. 


Si un dossier primaire demeure non couplé, i 
est impossible de dire avec précision les compa 
raisons qui ont @té faites et de définir le degr 
de concordance obtenu. Toutefois, la comparaiso 
et le degré de variation des dossiers apparié 
nous renseignent sur la qualité des données e 
sur ses effets. sur les résultats des apparie 
ments. C'est principalement 4 la qualité de ce 
données qu'on peut imputer les non-appariement 
erronés. 


ST-MATCH ANALYSIS 


thodological Review 


The initial outcome of the matching exer- 
ise yielded 45,794 linked records. This 
umber was later reduced because some of 
hese matches contained duplicate secondary 
ecords, and only one of these matched pairs 


ould be retained at best. Some matched 
airs were judged to be false, and were 
onverted to non-matches. Other matches, 


ithough considered to be true, could not 
linked to RC-T income data. A total of 
,»908 matched records was lost for the fore- 
oing reasons, and 43,886 true matches were 
etained to form the base for a longitudinal 
neome file. 


The methodological review with reference 
o the efficacy of matching routines and 
greement of variables is based primarily on 
he unedited linked file; i.e., it makes use 
f all matches regardless of duplicates or 
e truthfulness of matching decision. 


The matching results can be summarized 
d cross-classified by two major character- 
tics, namely the round in which the match 
ecurred, and the type of decision. This 
e will be classified as “unique” or "“mul- 
ple", where multiple implies that more 
wan one candidate had to be considered for 
ae final matching decision. Unique deci- 
ons, on the other hand, were based on the 
int accumulation of one secondary record 
is-a-vis one primary record. Approximately 
alf of all decisions involving unique 
atches were made after unsuitable candi- 
tes had been eliminated. The results are 
ummarized in Text Table I. 


| 
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ANALYSE POST-APPARIEMENT 


Méthodologie 


L'appariement a produit 45,794 dossiers cou- 
plés. Ce nombre a par la suite diminué quelque 
peu, certains appariements comportant le méme 
dossier secondaire. Par ailleurs, on a estimé que 
certains appariements étaient erronés et on a 
décidé qu'il y avait non-appariement. D'autres 
appariements, enfin, n'ont pas pu 6tre couplés 
aux données sur le revenu de RC-I en dépit du 
fait qu'ils aient 6té bons. Au total, 1,908 
dossiers appariés ont été é6liminés. Le fichier 
longitudinal sur le revenu s'appuie donc sur 
43,886 appariements véritables. 


L'étude méthodologique de Ll'efficacité des 
routines d'appariement et de la qualité de la 
concordance des variables s'appuie principalement 
sur le fichier couplé non contr6l1é; on se sert 
donc de tous les appariements, qu'ils soient 
justes ou faux et méme si certains dossiers sont 
repris plusieurs fois. 


Les résultats de l'appariement peuvent étre 
présentés de facon sommaire et. classés en 
fonction de deux principales caractéristiques: la 
série de comparaisons pendant laquelle l'apparie- 
ment s'est fait et le genre de décision. Cette 
variable est elle-méme divis&ée en deux catégo- 
ries: le groupe “unique” et le groupe “multiple”, 
ce dernier correspondant aux cas ow plusieurs 
candidats ont df 6tre pris en compte. Les déci- 
sions a caractére unique, pour leur part, corres- 
pondent aux situations of il n'y avait qu'un seul 
dossier secondaire par dossier primaire. Environ 
la moitié des décisions relatives aux apparie- 
ments A caractére’ unique ont été faites aprés 
1'6élimination des candidats indésirables. Les 
résultats sont présentés de fagon sommaire au 
tableau explicatif I. 


EXT TABLE I. Matches by Time of Occurrence of Decision Type in Census-RC-T Match, 1971 


LEAU EXPLICATIF I. Appariements selon le moment du type de décision, 


1971 


First round 


appariement recensement-RC-I, 


Second round 


| Premiére série 
| 
| 
; 


aique decision - 


Décision unique 37,940 
iltiple decision - 

Décision multiple 1,168 
tal 39,108 


Total 
Deuxiéme série 
4,852 42,792 
1,834 3,002 
6,686 45,794 


It can be seen that the majority of 
matched pairs was created in the LLESt 
round, and that most of these first-round 
matches were based on unique decisions. It 
should be recalled that the design aimed at 
bringing about speedy and accurate deci- 
sions. With first-round matching conditions 
being more stringent than second-round ones, 
and with unique decisions preceding multiple 
decisions; i.e., utilizing less computer 
time, one can substitute “accurracy levels” 
for “round" and "computer time levels" for 
“decisions types". When expressing each cell 
as a percentage of the grand total, the 
following results are obtained, as can be 
seen from Text Table II. 
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A la lecture du tableau, on peut voir que l 
majorité des appariements se sont faits pendan 
la premiére série de comparaisons et qu'ils repo 
saient pour la plupart sur des décisions 4 carae 
tére unique. Il convient de rappeler que J 
programme avait 6té congu de fagon 4 produir 
rapidement des décisions précises. Les condition 
d'appariement de la premiére série de comparai 
sons étant plus sévéres que celles de la seconde 
et les décisions uniques précédant les décision 
multiples (en ce sens qu'elles consomment moin 
de temps d'ordinateur), on peut remplacer le 
expressions “série” par “niveau de précision” e 
"senre de décision” par “temps d'ordinateur”. S 
l'on exprime chaque case par un pourcentage d 
total, on obtient les résultats du tableau expli 
Cateaita lle. 


TEXT TABLE IL. Accuracy Levels and Computer Time Levels for the Census~-RC-T Match, 1971 


TABLEAU EXPLICATIF II. Niveau de précision et temps d'ordinateur, appariement recensement-RC-I, 1971 


Great accuracy 


Grande précision 


per cent — pourcentage 


Fast solution —- Solution rapide 82.8 
Slow solution - Solution lente DAG 
Total 85.4 


Sufficient speed and accuracy can be 
attributed to 82.8% of all matches, and 2.62 
were attained with great accuracy but 
involving relatively more computer time. 
Thus, great accuracy can be claimed for 
85.4% of all matches. Moderate accuracy can 
be attached to 14.6% of all matched pairs, 
with 10.6% of this group being classified as 
“fast. This characteristic ds a relative 
attribute within the second round only. 
Remember that all second-round matches had 
passed through the first round. They have 
used more computer time than the 2.6% of all 
matches classified as slow but having great 
accuracy. 


One of the more complex and time-consum- 
ing tasks centered on the utilization of 
mailing addresses. RC-T addresses were in 
machine-readable form, but the record format 
was such that extensive reformatting and 
decomposition of mailing addresses’ was 
required. Items such as rural route numbers, 
box numbers, house numbers (civic numbers ) , 
and apartment numbers(13) had to be iso- 


See footnote(s) at end of text. 


Voir note(s) a la fin du texte. 


Moderate accuracy 


Précision moyenne 


On peut dire que 82.8% des appariements répop 
dent a des critéres de rapidité et de précisic 
suffisants et que 2.6% des appariements of, 
atteint une grande précision, l'opération ayar 
toutefois nécessité un peu plus de temps d'ordi 
mateur. Ainsi, 85.4% des appariements ont wut 
grande précision. D'autre part, 14.6% des appi 
riements ont une précision moyenne, l'opérati¢, 
s'étant faite rapidement dans 10.6% des cas 
Cette caractéristique ne constitue toutefo: 
qu'une qualité relative dans la deuxiéme série 
comparaisons. On se rappellera en effet que lh 
appariements de la deuxiéme série ont tous pas: 
par la premiére. Ils ont donc utilisé plus | 
temps d'ordinateur que les appariements “lents 
mais trés précis (2.6%). 


L'une des taches les plus complexes et lL 
plus longues avait trait a l'utilisation @ 
adresses postales. Les adresses de RC-I étaie: 
lisibles par machine, mais présentées de tel 
fagon qu'on a défi les décomposer et les reform! 
ler. Des €l&ments tels que le numéro de _ rou! 
rurale, le numéro de case, le numéro de por 
(numéro de voirie) et le numéro d'appartement (1 
ont di @tre isolés. Par ailleurs, les noms 


ted. Apart from numeric address informa-— 
ie place names and street names had to be 
dentified, and often a distinction between 
treet name and building name was needed. 
reets, of course, can also be identified 
numerics. Moreover, street designations 
ch as “avenue”, "lane", “drive" and about 
others occur in either one or the other 
our official languages, and concordance 
tween Census and RC-T with respect to lan- 
ge use for a given record is lacking. 


The use of address was further compli- 
ted by conceptual differences and time- 
ame variations. With Census day being June 
st, and tax returns having been filed 
ostly by April 30th, any change of address 
hich took place between the time of filing 
ae's tax return and completing one's Census 
uestionnaire resulted in discrepant address 
aformation. The conceptual difference, on 
he other hand, arises from RC-T requests 
or mailing address and census requests for 
lace of residence. While these two defini- 
ions agree in most instances, they differ 
1 those cases where individuals decide to 
ave their mail directed to a place other 
han their residence. Definition of 
address" is particularly troublesome in 
ural areas where post-office boxes and 
ural routes prevail, and where Census 
addresses" consist of lot and concession 
umber and other designators pertaining to 
he subdivision of land. Nevertheless, 
ttempts were made to utilize addresses as 
est as could be ascertained. 


All RC-T records had mailing addresses 
vailable, although some of these records 
osed problems when attempting to decompose 
nd reformat their address fields. Out of 
5,794 matched records, only 38,093 (83.22) 
ad a usable Census mailing address. How- 
ver, the use of address as part of the 
atching routines was restricted to records 
here other information failed to identify a 
atch conclusively. Consequently, the ad- 
ress was used to a limited extent, namely 
n 3,793 instances. 


The potential usefulness of address 
nformation is of methodological interest. 
hus, address components were investigated 
ith respect to availability and agreement. 
component was available if it occurred on 
oth segments of a matched record. Agreement 

judged as partial, if such partial 
greement was accepted in matching rou- 
om Conversely, disagreement implies that 
certain characteristic did not contribute 
nything to the point score leading to a 
atching decision. 


Agreement or disagreement may be consis— 
ent or inconsistent. Agreement is consis~ 
ent with true matches, but inconsistent 
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localité et de rue ont da étre identifiés, et 
l'on a souvent df faire une distinction entre le 
nom de la rue et celui de l'édifice. Les rues, en 
Outre, peuvent également @tre désignées par un 
numéro. Enfin, on a relevé une bonne quinzaine 
d'appellations telles que “avenue”, “chemin” et 
“promenade” dans les deux langues officielles, 
Sans qu'il y ait concordance entre les dossiers 
du recensement et ceux de RC-I. 


L'utilisation de l'adresse se compliquait en 
Outre du fait qu'il y avait entre les deux 
fichiers des différences d'ordre conceptuel et 
temporel. Par exemple, comme la journée du recen- 
sement @6tait le 1°" juin et que les déclarations 
d'impé6t avaient été remplies pour la plupart 
avant le 30 avril, les changements d'adresse 
Survenus entre ces deux dates ont été 4 l'origine 
de divergences. Du point de vue _ conceptuel, 
d'autre part, on observe que les dossiers de RC-I 
sont fondés sur l"adresse postale, alors qu'au 
recensement, on demande le lieu de résidence. 
Bien que ces deux définitions coincident dans la 
plupart des cas, elles différent quand certaines 
personnes dirigent leur courrier ailleurs qu'a 
leur résidence. La définition de l'adresse est 
particuliérement compliquée dans les régions 
rurales ot les casiers postaux et les routes 
rurales dominent, et ot l'adresse aux fins du 
recensement consiste en un numéro de lot ou de 
concession et en d'autres renseignements relatifs 
a la subdivision du sol. On a néanmoins tenté 
d'utiliser au mieux les adresses disponibles. 


Tous les dossiers de RC-I avaient une adresse 
postale; certains dossiers ont néanmoins posé des 
problémes quand il a fallu décomposer et reformu- 
ler leur adresse. Des 45,794 dossiers appariés, 
seulement 38,093 (83.2%) avaient ume adresse 
postale du recensement utilisable. Toutefois, 
l'utilisation de l'adresse dans les_ routines 
d'appariements se limitait aux dossiers dans 
lesquels les autres renseignements n'avaient pas 
donné un appariement sfir. L'adresse a donc été 
utilisée dans un nombre limité de cas (3,793). 


Les possibilités offertes par l'adresse ont 
plutét un intérét méthodologique. C'est pour 
cette raison qu'on a étudié la disponibilité et 
la concordance des éléments de l'adresse. Un 
élément était qualifié de “disponible” s'il 
paraissait dans les deux segments d'un dossier 
apparié. La concordance était dite partielle si 


elle avait été acceptée par les routines d'appa- 
riement. A L'inverse, on a 6tabli qu'il y avait 
divergence si une caractéristique donnée n'aug- 
mentait pas la _ note attribuée a un dossier 


pendant le processus d'appariement. 


La convergence ou la divergence peuvent é6tre 
cohérentes ou incohérentes. Ainsi, la convergence 
est cohérente dans les appariements justes, mais 


where it is a random 
should be expected in 
consistent, 
matches 
such a 


with false matches, 
event. Disagreement 
false matches:a) thus, dt Tats 
whereas disagreement in true 
indicates the unreliability of 
characteristic. On the other hand, it shows 
that disagreement in isolation may not 
prevent a valid match from being declared. 


Address components are compiled in Text 
Table LII together with their consistent and 
inconsistent frequency of occurrence. Fine- 
locality codes are included therein since 
they are quasi addresses. They are not inde- 
pendent of place name. Finelocality codes at 


the three-digit level (FINELOC3) embrace 
larger areas than those at the five-digit 
level (FINELOC5). Usually, one associates 
five-digit codes with municipality and 
three-digit codes with county or Census 
division. 

The relatively large area covered by 


locality codes and place name, increases the 
chance of agreement for false matches as is 
revealed by 627 inconsistent agreements of 
three-digit locality codes and 380 chance 
agreements for place name. 


The lack of agreement of address compo- 
nents for true matches is possible because 
actual use of address components was made 
for only 10% of all matches. It _ shows, 
however, that greater reliance on addresses, 
as they are now supplied, would affect match 
results adversely. 


Two possible approaches can be outlined 
to circumvent the detrimental effect of 
inconsistent address components. First, one 
can try to increase the data quality: of 
addresses, if their use is unavoidable. 
Secondly, one can obtain other types of data 
which contribute appreciably to a matching 
decision, provided such data can be obtained 
easily, and can be expected to have a higher 


degree of reliability than address compo- 
nents. 
To put the foregoing statement into 


better perspective, the consistency status 
of other matching characteristics will be 
examined next. These characteristics are of 
a personal nature and they include month of 
birth (MOB), year of birth (YOB), marital 
Status, which is expressed in coded form and 
contains single, married, separated, di- 
vorced, and widowed. Sex is another charac-— 
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incohérente dans les appariements erronés, 
elle est dictée par le hasard. Les cas de dive 
gence se présentent dans les appariements err 
nés; il y a alors, divergence cohérente. 
revanche, les cas de divergence observés dans 1) 
appariements justes font ressortir le manque 
fiabilité de cette caractéristique. Prise isol 
ment, la divergence n'empéchait pas toutefo 
qu'un appariement valide puisse se faire. 


Les €6léments de l'adresse ainsi que le 
fréquence de cohérence et d'incohérence s¢ 
présentés au tableau explicatif III. Les codes 
localité y sont présentés, car ils correspondeé 
pratiquement 4 une adresse. Ils ne sont pas sé 
rapport avec le nom de la lo¢alité. Les codes 
localité a trois chiffres couvrent des régic 
plus grandes que les codes a cinq chiffres. 
facon générale, les codes a cinq chiffres corre 
pondent a la municipalité, et les codes a tr¢ 
chiffres, au comté ou a la division de recens 
ment « 


La superficie couverte par les codes et 
noms de localité &étant relativement grande, e 
accroit les risques de convergence des dossit 
erronés; il y a en effet eu 627 cas de convergt 


ces incohérentes pour les codes de localité 
trois chiffres et 380, pour les noms de lo 
etsc 


L'absence de convergence entre les éléments) 
l'adresse des appariements justes vient de ce 
les éléments de l'adresse n'ont 6té véritablem 
utilisés que dans 10% des appariements. Le phé 
méne montre néanmoins que, si l'on s'appuyy 
davantage sur les adresses telles qu'elles s 
présentées a4 l'heure actuelle, la qualité 
l'appariement en souffrirait. 


Pour contourner les effets négatifs de l'in 
hérence des &léments de l'adresse, on peut fa 
appel a deux approches. D'une part, on gf 
tenter d'améliorer la qualité des données 
adresses si l'on est obligé d'y avoir recov 
D'autre part, on peut obtenir d'autres donr 
qui jouent un réle important dans 1'apparieme 
pourvu que ces données soient facilement acces 
bles et qu'elles aient un niveau de fiabil 
supérieur a celui des éléments de l'adresse. 


Pour bien situer les choses, nous examine} 
maintenant le statut de coh&rence d'autres ca} 
téristiques d'appariement. Ces caractéristi 
sont: le mois de naissance (MDN), l'année 
naissance (ADN), 1'état matrimonial (célibata) 
marié, sé&paré, divorcé et veuf), le sexe, 
caractéristique appelée “prénom et initiales” 
enfin, le "“CONJOINT". Cette appellation sert' 
désigner “les quatres permiers caractéres 


Data item - Elément 


TABLEAU EXPLICATIF III. &léments de 1' 
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TEXT TABLE IIL. Address Components by Consistency Status and Agreement Type for the Census-RC-T Match 


Agreement type(1) — Type de convergence(1) 


Inconsistent usage 


Usage incohérent 


ee ee ee 


» 1971 


adresse selon le statut de cohérence et le type de convergence, appariement recensement 


~RC-i, 1971 


Consistent usage 


No. ~ nbre 


cohérent 


72.0 


89.4 


78.5 


78.4 


86.0 


84.4 


94.8 


Number of items 
available for 
comparison(2) 


Nombre d'éléments 
disponibles pour 
fins de comparai- 
son(2) 


15,671 


45,794 


38,050 


31,949 


517 


Usage 
A B ; 
No. - nbre a No. — nbre oo satis 9.’ 
Five-digit locality code - 
Code de localité a cing 
chiffres 116 0.7 3,972 25.4 11,286 
Three-digit locality code - 
Code de localité 4 trois 
_ chiffres 627 1.4 3,080 Ber 40,925 
ce name - Nom de 
localité 380 1.0 6,793 17.8 29,852 
|Street name (first eight 
characters) — Nom de rue 
(huit premiers caractéres) 55 On? 5,690 17.8 25,062 
Civic number - Numéro 
de voirie 43 0.2 35252 10.7 26,068 
Box number - Numéro de 
| case 2 1.3 18 11.7 130 
|Rural route — Route 
rurale 6 1.1 17 3.3 490 
| Agreement type(1) - Type de convergence(1) 
| 
} 
| Consistent usage Intermediate usage 
} 
| Usage cohérent Usage intermédiaire 
| D E F 
No. — nbre 4 No. - nbre No. - nbre r 4 
\Five-digit locality code - 
Code de localité 4 cing 
chiffres 297 1.9 i = 4 
|Three-digit locality code - 
_ Code de localité a trois 
chiffres 1,162 2.5 = os al 
Place name - Nom de 7 
localité 1,025 2.7 = = 
Street name (first eight 
characters) - Nom de rue 0.1 
(huit premiers caractéres) 1,083 3.4 48 0. 11 i 
Civic number - Numéro é e 
de voirie 936 3-1 = 
“Box number - Numéro de - - 
case 4 2.6 iz 
> a route - Route a = 
| Turale 4 0.8 = 
fe 2 ——— 
| (1) Agreement types A to F are defined as follows: 


| A. Characteristic agrees although match is false. 
_ 8B. Characteristic disagrees although match is true. 


_ (. Characteristic agrees and match is true. 

_ D. Characteristic disagrees and match is false. 
__E. Characteristic (variable) agrees partly for true match. 
_ F. Characteristic agrees partly for false match. 

(1) Les types de convergence A a F sont définis comme suit: 


_ A. Caractéristique convergente, appariement erroné. 

_ B. Caractéristique divergente, appariement juste. 
C. Caractéristique convergente, appariement juste. 

i D. Caractéristique divergente, appariement erroné. 


_ E. Caractéristique (variable) partiellement convergente, appariement juste. 


F. Caractéristique partiellement convergente, appariement faux. 


All percentages use “number of available items” as a base. 7 
Tous les pourcentages sont fondés sur le “nombre d'éléments disponibles”. 


teristic to be examined for matching consis— 
tency. The discussion also includes a 
characteristic called "First Name and Ini- 
tials", and finally “SPOUSE”. This last 
designation stands for “the first four char- 
acters of a spouse's given name”. RC-T uses 
“commonly used given name", but we had to 
infer from the Census record which given 
name to choose, if more than one was stated 
in, fudiic 


As can be seen from Text Table IV, sex 
has the greatest incidence of inconsistent 
usage for false matches. This finding is not 
surprising since the chance of random agree- 
ment for “sex” is quite high. Similarly, 
marital status ranks second for being incon- 
sistent in false matches. It is even more 
pronounced in terms of disagreement for true 
matches. This fact indicates that marital 
status is neither reliably reported nor does 
it have a great discriminating power. Sex, 
on the other hand, also lacks discriminating 
power, but is very reliably reported since 
only 80 records disagree on sex, yet are 
true matches. 


Month of birth (MOB) occupies a middle 
ground in discriminating power, as indicated 
by 1,144 (2.5%) inconsistent agreements for 
false matches. Its reporting reliability can 
be judged on the basis of 1,604 disagree- 
ments, although the match is true. 


Year of birth (YOB) has greater discrimi- 
nating power than MOB, which is obvious on 
a-priori grounds since the probability of 
agreeing by chance is 1:12 for MOB whereas 
it is only 1:50 for YOB over the expected 
range, although "bunching" in prime age 
groups makes for lack of uniformity. 


To enhance the discriminating power of 


date-of-birth information, day, month, and 
year in combination would improve the 
results appreciably. Reporting errors, as 


reflected in the B-groups of Text Table IV 
should remain close to those experienced for 
MOB, although special care during collection 
and processing may further improve date-of- 
birth data. 


First names and initials have excellent 
discriminating power, as can be inferred 
from a failure rate of 1.2%, or 532 incon- 
Sistent records in group A. The quality of 
this data item, however, is affected by 
inconsistencies that go beyond simple 
“errors”. Depending on the type of document, 
formal first names are replaced with short 


forms or adopted unofficial first names. 
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prénom du conjoint”. RC-I utilise le “préno 
usuel"; pour les dossiers du recensement, toute 
fois, nous avons parfois dG choisir le prénom sg 
l'on n'en avait donné plus d'un. 


Comme on peut le voir a la lecture du tablea 
explicatif IV, c'est le sexe qui revient le pie 
souvent dans les appariements erronés. La chos) 
n'est pas surprenante si l'on songe que le 
chances de convergence fortuite de la caractéris, 
tique “sexe” sont assez élevées. L'état matrimo 
nial vient 4 cet é6gard au deuxiéme rang. §; 
présence est d'ailleurs encore plus _ prononcé} 
dans les cas de divergence d'appariement}} 
justes. Cela montre bien qu'on ne peut pas §g| 
fier a la qualité de la déclaration de 1'éta 
matrimonial et que cette caractéristique n'a paji 
un pouvoir discriminant 6levé. Le sexe, pour s] 
part, a lui aussi un faible pouvoir discriminant) 
en revanche, il est trés bien rapporté, puisqu'i! 
n'y a divergence que dans 80 dossiers (les appa 
riements 6tant toutefois justes). 


Le mois de naissance (MDN) occupe une positia} 
intermédiaire du point de vue du pouvoir discri] 
minant; on observe en effet qu'il y a eu 1,14] 
cas (2.5%) de convergence incohérente (apparie} 
ments erronés). La fiabilité du MDN peut étr} 
appréciée au fait qu'il y a eu 1,604 divergence 
dans des cas d'appariements justes. 


L'année de naissance (ADN) a un meilleur pov 
voir discriminant que le MDN. La chose es 
€vidente puisque la probabilité de convergence 
fortuite est de 1:12 dans le cas du MDN et c] 
seulement 1:50 dans celui de 1'ADN pour le 
groupes d'age 6tudiés, le grand nombre 4d 
répondants d'age moyen ayant néanmoins un effe 


~ 


adverse a cet égard. 


Pour accroftre le pouvoir discriminant de ] 
date de naissance, il faudrait utiliser le jour 
le mois et l'année de naissance. Les erreurs C 
déclaration mises en 6vidence par les groupes © 
du tableau explicatif IV demeureraient voisines 
celles qui s'observent avec le MDN; toutefois ¢ 
arriverait peut-étre a améliorer les données sv 
la date de naissance en portant une attentic 
spéciale au processus de collecte et de traite 
ment. 


Les prénoms et les initiales ont un exceller 
pouvoir discriminant; en effet, le taux d'éche 
n'a &t& que de 1.2% (532 dossiers incohérents < 
sein du groupe A). La qualité de ces données} 
toutefois, est liée aux incohérences qui vor 
au-dela de la simple “erreur”. Compte tenu de 
nature du document, les prénoms officiels sor 
remplacés par des prénoms usuels. Souvent , 
prénom intermédiaire s'est substitué au prén¢ 


TABLE IV. Personal Characteristics and Variables by Consistency Status and Agreement Type for the Census 


: ta {tem -— flément 


Jonth of birth - Mois de 
naissance 


4 


ear of birth - Année de 
naissance 


@rital status - Etat 
matrimonial 


fex — Sexe 


first names initials - 
Prénoms initiales 


irst four characters of 
spouse's first name — 

Quatre premiers carac~ 

_téres du prénom du 

_ conjoint 


fonth of birth - Mois de 
, RNaissance 


‘ear of birth - Année de 
naissance 


f@rital status - Etat 
matrimonial 


x - Sexe 


» 


t names initials - 
Prénoms initiales 


: 
irst four characters of 
: e's first name — 


1) See footnote (1) Text Table III. 
1) Voir note (1) du tableau explicatif III. 
All percentages use “number of available items” as a base. 
Tous les pourcentages sont fondés sur le “nombre d'éléments 
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Agreement type(1) — Type de convergence(1) 


a ee eee es 
Inconsistent usage 


Usage incohérent 


1,144 


821 


1,608 


1,766 


290 


2.5 


1.8 


3.5 


3.8 


1.0 


1,604 


4,800 


80 


2,102 


1,765 


5.9 


-RC-T Match, 1971 


EXPLICATIF IV. Caractéristiques et variables personnelles selon le statut de cohérence et le type de convergence appariement recen t 
‘ censemen 


-RC-I, 


Consistent usage 


Usage cohérent 


42,401 


41,619 


39,205 


43,925 


28,601 


25,890 


92.6 


90.4 


85.6 


62.5 


87.2 


a TETEInE nnn aEEEEEEEEER CREE EEREERGEEREREEERREREE 


Agreement type(1) - Type de convergence(1) 


ee 


Consistent usage 


Usage cohérent 


Intermediate usage 


Usage intermédiaire 


Number of items 
available for 
compa rison(2) 


Nombre d'éléments 
disponibles pour 
fins de comparai- 
son(2) 


D E F 
ee ee eee 
No. — nbre % No. — nbre % No. — nbre z 
645 1.4 = = 2 2 45,794 
2 7 2,386 5.2 968 2.1 45,794 
181 0.4 = = . Z 45,794 
23 O.1 - ~ - - 45,794 
342 0.7 13,302 29.0 910 2.0 45,792 


disponibles”. 


29,674 


1971 


Often, the middle name has become the com- 
monly used given name, but lack of reporting 
consistency between data sources makes it 
difficult to use this data item to its 
fullest capacity. 


Comments with reference to first names 
alsomapply to SPOUSE, since Le -is\.a first 
name-derived data item. Consequently, it is 
afflicted with similar strengths and weak- 
nesses. 


Other inferences could be made from Text 
Table IV, but these are left to the reader. 
The results of the methodological evaluation 
will now be summarized before proceeding 
with the analysis of matching results. 


Speed and accuracy of the matching proce- 
dure are governed by the number of variables 
used and by the discriminating power attrib- 
uted to these variables. Discriminating 
power is mainly a property of the “unique- 
ness" of the variable, but the quality of 
such a variable or characteristic in terms 
of reporting and processing reliability is 
crucial. 


While the choice of data is dependent on 
circumstances often beyond the control of 
the statistical agency, especially if admin- 
istrative data are used, the quality of the 
data can often be ameliorated by special 
processing. This procedure is particularly 
applicable to the primary file, which 
usually consists of a sample. 


As data linkage becomes a more widely- 
used process than _ heretofore employed, 
choice of data and data quality should be 
improved by appropriate collection proce— 
dures. 


Computer-—programmed decisions to generate 
linked records are highly dependent on the 
amount of data to be compared (scale). As 
files increase in size, comparisons increase 
exponentially. Thus, large-scale matching 
Operations may become prohibitively costly 
or highly inaccurate. Advances in computer 
technology may help to increase technical 
feasibility and thus have to be evaluated 
periodically. Computer processing, of 
course, is also affected by the programmed 
routines, which in turn have to make allow- 
ances for the type of data available. The 
collection of more suitable data for record 
linkage applications thus promises to yield 
the greatest benefits in terms of the over- 
all effectiveness of linkage applications. 
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| 
usuel; toutefois, le manque d'uniformité d 
méthodes de déclaration nous empéche de ti 
pleinement profit de ces données. 


La situation &tant analogue dans le cas 
concept du CONJOINT, cette caractéristique a d} 
avantages et des inconvénients analogues. 


D'autres conclusions pourraient @étre tirées |} 
tableau explicatif IV; nous laisserons ce soin 
lecteur. Avant d'analyser les résultats |} 
l'appariement, nous présenterons sommairement 1]} 
résultats de 1'évaluation de la méthodologie 
l'opération. 


La vitesse et la précision de 1'apparieme 
sont liées au nombre de variables utilisées et } 
pouvoir discriminant attribué a chacune d'elle 
Le pouvoir discriminant tient surtout a 1l'unic# 
de la variable, alors que la qualité de cet} 
derniére est fonction de la fiabilité de Wf 

} 
5 


déclaration et du traitement des  donné 


Bien que le choix des données dépende jf 
circonstances sur lesquelles l'organisme statih 
tique n'a souvent aucun contréle —- surtout Stk 
stagit de données administratives - on _ peh) 
fréquemment améliorer la qualité des renseigr 
ments au moyen d'un traitement spécial. Cela 
particuliérement vrai dans le cas du fichiyy 
primaire, qui se présente le plus souvent sous ft 
forme d'un échantillon. hy 


Au fur et a mesure que le couplage des de 
nées se répandra, l'utilisation de procédures ||}; 
collecte appropriées devrait améliorer le che); 
et la qualité des données. fe 


Le couplage par ordinateur de dossiers Rt 
intimement 1i6 au volume des données qui doive| 
6tre comparées. Au fur et Aa mesure que la tail 
des fichiers s'accroft, le nombre des compaFé| ii 
Sons augmente de fagon exponentielle. Ainsi, + he 
opérations d'appariement a grande échelle PeUVE ty 
occasionner des cofits prohibitifs ou de vel jy 
hautement imprécises. Les progrés réalisés dé iy 
le domaine de l'informatique pourront néanmo: jy 
contribuer @ en accroftre la faisabilité; | 
situation devrait donc @tre é6valuée périodiq |}; 
mente Le traitement informatique dépend évi ig 
ment des routines programmées; a leur t 
celles-ci doivent tenir compte de la nature 
données disponibles. C'est donc la collect@ 
données mieux adaptées au couplage des donn 
qui est susceptible d'offrir les résultats 
plus prometteurs en cette matiére. 


on Matches and Non-matches 


11 matched records had to be combined 
RC-T income data strings, and identify- 
information, except social insurance 
r and account number (REDID), was 
ved at this stage. As was mentioned 
e, some matched records could not be 
ed with their income portions of the 

file due to file updating problems. 
» the analysis which follows is based on 
ightly reduced universe. 


he sample as selected contained 116,380 
tds and 79,181 of these were adults. 

are defined in the Census as being 15 
s of age or older. Since income ques- 
s had been asked of adults only, 
dren were excluded from matching consid- 
ions. This restriction does not preclude 
.1r being retained in households or fami- 
for analytical purposes with respect to 
ly size or composition. 


ttempts to link these 79,181 adults to 

files yielded 45,665 matched pairs for 
h income information was available, but 
43,886 were accepted as true matches. 
» decision was made without consideration 
income reporting. 


he group of 1,779 false matches was 
rned to the non-matches segment of the 
; however, false matches remain identi- 
le by way of a code. 


he non-match set is made up of 33,516 
inal non-matches, i.e., those which 
ged from computer decisions, and 1,779 
verted" non-matches, namely former 
hes classified as "false”. 


n terms of income sources, as reported 
the Census, matches and _  non-matches 
er markedly. Although 1,173 matched 
rds showed no Census income, most non- 
me records are associated with non- 
hes, namely 19,938. 


tched records show a high incidence of 
ed income with 88.9% of all income 
ients having this type as its major 
ce. The remainder, 11.1% made up of 
8 records, have non-earned income as a 
r source. 


on-matches, on the other hand, have only 
%Z of income recipients as earned-income 
tf source categories, whereas 46.7% of 
matched income recipients report non- 
2d income types as their major source. 
detail can be obtained from Table l. 
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Déclaration du revenu - Dossiers appariés et 
—————— — _ssters apparios et 
non appariés 


A cette €étape du travail, on a groupé les 
dossiers appariés aux chafnes de données sur le 
revenu de RC-I, et les données d'identification 
(exception faite du numéro d'assurance sociale et 
du numéro de compte) ont été éliminées. Comme on 
l'a d&ja vu, des problémes de mise a jour du 
fichier nous ont empéchés de fusionner certains 
dossiers appariés aux données sur le revenu de 
RC-I. L'analyse qui suit porte done sur un uni- 
vers légérement diminué. 


L'échantillon choisi comportait 116,380 dos- 
siers; 79,181 d'entre eux correspondaient a des 
adultes (personnes qui, au sens du recensement, 
ont 15 ans et plus). Comme les questions sur le 
revenu n'étaient posées qu'aux adultes, les 
enfants ont 6té exclus de l'appariement. On les a 
néanmoins conservés dans les ménages ou _ les 
familles 4 des fins analytiques (taille ou compo- 
sition de la famiile). 


Les tentatives de couplage de ces 79,181 adul- 
tes aux fichiers de RC-I ont donné 45,665 appa- 
riements pour lesquels des renseignements sur le 
revenu 6taient disponibles; seulement 43,886 
d'entre eux 6taient bons. Cette décision a 6&té 
prise sans tenir compte du revenu. 


Les 1,779 appariements erronés ont été ren- 
voyés au segment des non-appariements du 
fichier. On peut néanmoins les reconnaftre au 
code qui leur a &té attribué. 


Le groupe des non-appariements se compose des 
33,516 dossiers non appariés par l'ordinateur et 
des 1,779 appariements rejetés. 


Les appariements et les non-appariements dif- 
férent sensiblement du point de vue des sources 
de revenu déclarés au recensement. Bien que 1,173 
dossiers appariés ne contenaient aucune donnée 
sur le revenu, la plupart des dossiers a revenu 
nul (19,938) étaient associés a des non-apparie- 


ments. 


Dans la majorité des dossiers appariés 
(88.9%), les répondants tiraient leur principale 
source de revenu d'un revenu gagné. Dans les 
4,738 dossiers restants (11.1%), la principale 
source de revenu était un revenu non gagné. 


En ce qui concerne les non-appariements, 
d'autre part, seulement 53.3% des bénéficiaires 
d'un revenu avaient comme principale source de 
revenu un revenu gagné; les 46.7% restants ne 
tiraient pas leur principale source de revenu 
d'un revenu gagné. On trouvera d'autres rensei- 
gnements a ce sujet dans le tableau 1. 


It will be recalled that many non-matches 
do not constitute a ‘“failure”™. Most non-— 
matches represent a correct decision because 
the Census record, which reflects such an 
outcome, belongs to a person who could not 
have been expected to file a tax return due 
to the absence of income for taxing pur- 
poses. Consequently, a link to a tax record 
is impossible under these circumstances. 


The success of the matching project can 
best be judged in terms of "all true 
matches" out of the “estimated number of 
taxfilers" expected to coincide with the 
census sample. The estimated number of 
taxfilers consists of all “true matches" and 
all “false non-matches", and amounts’ to 
47,970 records. This result can be expressed 
as a match rate of 43,886/47,970 or 91.5% of 
the overlapping universe. The underlying 
data for this match rate are presented in 
Table 15. 


The taxfiler universe in Table 15 has 
been estimated on the basis of Census infor- 
mation, including pertinent family and 
dependency relationships. Alternatively, a 
taxfiler rate can be calculated from publis-— 
hed Revenue Canada information. Applying 
this rate to all adults in our sample, an 
estimated number of taxfilers emerges, and 
matching success can be judged against this 
Subset. Match Rate II in Table 20 shows 
generally a greater degree of success. While 
it confirms the approach used in Table 155 
it should not be used as the ultimate crite-— 
rion for judgment. 


The failure rate in Table 20 indicates 
the percentage of false non-matches out of 


all adults in the sample. Its complement, 
the success rate, includes all valid deci- 
Sions; in other words, true non-matches as 


well as true matches are successful out- 
comes. Success rates vary between 92.7% and 
95.6% for provinces, with the weighted 
Canadian rate at 94.8%, 


The match rate, however, is more relevant 
than the success rate in view of the 
intended use of the data. A match rate of 
91.5% implies a non-match rate of 8.5%. An 
attempt will now be made to assess the 
Shortfall in income due to non-matches. 
There are 4,084 non-matches which should 
have been matched (false non-matches). They 
account for $25.034 million in the sample 
which represents 9.1% of total income. 


There are also Slightly over 11,000 non- 
matches with small amounts of income, but 
individuals presented by these records may 


30 


On se rappelera que bon nombre de non-appar:} 
ments ne constituent pas un "&chec". La plupi 
des non-appariements correspondent 4 une _ bo 
décision, le dossier du recensement correspondi 
appartenant a une personne qui n'a pas rempli 
déclaration d'impét faute de revenus aux fins | 
l'impét. Ces dossiers ne peuvent manifestem# 
pas 6tre couplés a ceux de l'impét. 


La meilleure fagon de mesurer le succés 
projet d'appariement consiste A comparer 
“nombre total d'appariements justes" au “nomi 
estimatif de contribuables" qui devrait cofincii 
avec l'échantillon du recensement. Le nom 
estimatif de contribuables comprend les “appar? 
ments justes” et les "non-appariements erronéi} 
et s'éléve 4 47,970 dossiers. Ces résultats dif 
nent donc un taux d'appariement de 43,886/47,9) 
soit 91.5%. Les données utilisées pour faire 


calcul sont présentées au tableau 15. 


L'univers des contribuables du tableau 15 
été estimé a partir de chiffres du recenseme: 
et notamment de renseignements sur les famil) 
et les personnes 4 charge. Le pourcentage © 
contribuables peut également @tre calculé| 
partir de renseignements publiés par Rew 
Canada. En appliquant ce taux a l'ensemble 
adultes de notre &échantillon, on obtient un n 
bre estimatif de contribuables en fonction duq 
on peut €valuer le succés de 1l'appariement. 
taux d'appariement II présenté au tableau |. 
correspond a un meilleur degré de réussite. 
que l'approche utilisée dans le tableau 15 a; 
trouve confirmée, ce taux ne devrait pas ser 
de critére de jugement ultime. ' 
| thy 
Le taux d'échec du tableau 20 représente |. 
Proportion des non-appariements  erronés 
rapport a l'ensemble des adultes de 1'échant 
lon. Son complément, le taux de réussite, ser 
désigner l'ensemble des décisions valides. 
d'autres termes, les non-appariements ju 
représentent une réussite au méme titre que 
appariements justes. Les taux de réussite os 
lent entre 1.92.72. .et. 95.60 sane province 


l'autre, le taux canadien pondéré s'établissan 
94.8%. 


eh 


Si l'on tient compte de la destination 
données, le taux d'appariement est néanmoins 
pertinent que le taux de réussite. Un taux d 
pariement de 91.5% suppose un taux de non-ap 
riement,. de. 8.5%... Nous .essaterons mainte 
d'évaluer la différence en moins au niveau 
revenus attribuable aux non-appariements. Il 
eu 4,084 dossiers non appariés, mais qui aura 
di l'étre (non-appariements erronés). Ces dit 
siers représentent dans l'échantillon $25m) 
millions, soit 9.1% du revenu tokale 


On compte également un peu plus de 11, 
dossiers non appariés correspondant a de faib: 
revenus pour lesquels il n'&tait peut-étrem™ 


have been required to file a tax return 
1970. Thus they are classified as "true 
-matches”. They generate $11.129 million 
4.0% of total income in the sample. The 
mbined shortfall in total income due to 
-matches is $36.16 million, or $35.219 if 
justed for overreporting. The non-match 
ome effect thus amounts to 12.8% on the 
Bis of am expected total of $274.926 
lion as estimated.(14) 


Matches and Reporting 


A comparison of data items as they were 
orted for a given person to Census and to 
venue Canada reveals that inconsistencies 
fst at various levels of aggregation. 
ing RC-T data as a base for comparison, 
Ihsus items are either omitted, overre- 
ted or underreported and the net result 
total income may or may not be signifi- 
it. 


To carry out valid comparisons, income 
bm the Census must be conceptually aligned 
fh income reported to Revenue Canada. 
is, only those Census items were included 
the comparison of total income, which are 
ject to provisions of the Taxation Act, 
mit. applied to the 1970 taxation year. 
.s income is referred to more precisely as 
come subject to taxation” but for sim 
city of exposition will be called “total 
ome”, and should not be mistaken for 
fal income as it appears on the Census 
stionnaire. 


Out of 43,886 true matches, 42,711 showed 
patible total income reporting in both 
a sources, whereas 1,158 revealed total 
ome in their RC-T record only, 13 had 
© total income in their tax return and 

records, although properly matched, 
ed zero total income on _ both files. 
ise four records, when added to 42,711 
Sistent records, constitute the subset of 
Matches with a consistent presence of 
fal income. Consistent presence, however, 


not always coincide with consistent 
nts, and this aspect will have to be 
fussed later. 
fhe 13 records which show zero tolat 


me on their tax return, although Census 
rting shows an actual amount, will now 
tjiscussed briefly. 


{solated characteristics will be pointed 

| but the set is too small to permit 

tralizations. Five of these 13 records 

t wages as part of total income on their 

jus questionnaire, whereas the other 

it records show income from self-employ- 
or investment income. 


‘footnote(s) at end of text. 
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nécessaire de remplir une déclaration d'impét en 
1970. On a donc classé ces dossiers parmi les 
non-appariements justes. La valeur de ces revenus 
s'éléve A $11.129 millions, soit 4.0% du revenu 


total de Ll'échantillon. La différence en moins 


attribuable aux non-appariements est done de 
$36.16 millions, $35.219 millions si l'on tient 
compte de l'exagération des revenus. L'effet des 
non-appariements sur le revenu s'éléve donc a 


12.8%, si L'on prend comme base un revenu estima- 
tif total de $274.926 millions(14). 


Appariements justes et erreurs de déclaration 


Une comparaison des données déclarées par une 
meme personne au recensement et a Revenu Canada 
met en é&vidence certaines incompatibilités A 
divers niveaux de rezgroupement. Si l'on utilise 
les données de RC-1I comme base de comparaison, on 
observe que les chiffres du recensement peuvent 
Stre omis, exagérés ou minimisés et que L'effet 
net d'une telle situation sur le revenu total 
peut Stre important ou non. 


Pour que les comparatisons soient yvalables, les 
chiffres sur le revenu tirés du recensement doi- 
vent étre conceptuellement aliyvnés sur ceux de 
Revenu Canada. C'est pour cette raison que nos 
comparaisons ont port@ uniquement sur les 
ments du revenu sounis aux dispositions de la Loi 


é1@a- 


de l'impé6t sur le revenu en vigueur pendant 
l'année fiscale 1970. Techniquement, ce revenu 
correspond au “revenu soumis a L'impét". Par 
souci de simplicité, nous l'appellerons “revenu 


total"; ce concept ne devrait toutefois pas étre 
confondu avec le revenu total du questionnaire de 
recensement. 


Des 43,886 appariements justes, 42,711 presen- 
taient un revenu total compatible dans les deux 
sources de données, 1,158 avaient un revenu total 
dans le dossier de RC-I seulement, 13 avaient un 
revenu total nul dans les dossiers de l'impdt et 
quatre, un revenu total nul dans les deux 
fichiers. Ces quatre dossiers et les 42,711 
autres constituent le sous-ensemble des apparie- 
ments justes comportant la présence d'un revenu 
total compatible. Cela ne signifie pas pour 
autant que les sommes déclar“es correspondaient 
toujours; cette question sera étudiée plus loin. 


Nous examinerons pour le moment le cas des 13 
dossiers pour lesquels les répondants ont indiqué 
un revenu total nul dans leur déclaration d'im- 


pot, mais non au recensement. 


Méme si le nombre de ces déclarations est trop 
peu 6levé pour qu'on en tire des généralisations, 
nous en isolerons néanmoins certaines caractéris- 
tiques. Dans cing de ces 13 dossiers, les salai- 
res font partie du revenu total; dans les huit 
autres, le revenu a été tiré d'un emplol autonome 
ou de placements. 


Voir note(s) a la fin du texte. 


The corresponding tax records show only 
“gross income from self-employment” without 
a corresponding “net income”, or the income 
fields are zero. In one instance, a loss 
from rental income is offset by investment 
income thereby summing to zero total in- 
come. 


The disagreement in reporting incidences 
can be explained in a number of ways. Income 
recipients may have reported Census income 
for 1971, since 1970 income was truly zero 
as revealed in their tax return. It is also 
possible that these are “False Matches”, 
although initially judged true, for such a 
judgement is always probabilistic and never 
based on the absolute truth. Given that only 
13 records are involved, the effect on sta- 
tistical output is negligible. 


The 1,158 true matches with total income 
exclusively on their tax return will now be 
examined. The magnitude of the inconsis-— 
tently reported total income falls most 
frequently into the $2,001 to $5,000 income 
class, namely on 234 occasions. The next 
highest frequency occurs in the SILEOO1F 280 
$2,000 class, where 187 records are placed. 
Well over one half of all records, namely 
690, show total income over $500. The aver- 
age total income exclusively reported to 
Revenue Canada, i.e., omitted from _ the 
Census questionnaire, is $1,695.68. 


The personal characteristics of single- 
source respondents are of interest. Single- 
source respondents includes those not 
reporting a discernible total to Revenue 
Canada. 


The combined number of 1,171 single- 
source respondents is heavily dominated by 
those reporting exclusively to Revenue 
Canada, namely 1,158. There are more females 
than males in this group contrary to the 
complete match set, which is made Shay » Kone 
28,344 males and 15,542 females. Marital 
status and age show irregular patterns. 


These data are summarized in Tables 4 and 
5, and population data from the 1971 Census 


are shown for comparative purposes in Table 
Zs 


The 13 Census records account for a total 
of $0.049 million not reflected in RC-T 
Sources, whereas the 1,158 single-source 
taxation records account for $1.963 million 
not reported to the Census. The average RC-T 
omission for this subset is $3,769 and the 
average Census omission is $1,696. 


Dans les déclarations d'impé6t correspondante 
il n'y a qu'un "“revenu brut d'un travail auton 
me", mais aucun “revenu net”, ou les cham 
réservés au revenu sont nuls. Dans un cas, u 
perte de revenu locatif a 6té compensée par d 
revenus de placements, le revenu total s'établil 
sant ainsi 4 zéro. 


Ces €carts peuvent s'expliquer de plusieu 
facgons. Les personnes qui ont eu des reven 
peuvent avoir déclaré ceux de 1971, leur reve 
de 1970 €étant nul, comme en témoigne leur décli 
ration d'impét. Il se peut également qu" 
s'agisse 1a d'appariements erronés, le jugem 
quia 6té porté sur la qualité de 1'appariem , 
comportant toujours une part d'aléatoire. Tou 5 
fois, comme il n'y a que 13 dossiers en jeu, 1 
effet sur les résultats statistiques est nég Ui 
geable. t 


HN 


Nous 6tudierons maintenant les 1,158 apparirh 
ments véritables ot seules_ les déclaratioj} 
d'impét contiennent un revenu total. C'est dai, 
la tranche de revenu de $2,001 4 $5,000 que 
erreurs de d&éclaration sont les plus fréquentet} 
nous en avons relevé 234. Vient ensuite la trai) 
che $1,001 a $2,000 (187 dossiers). Dans sens}! 
blement plus de la moitié des dossiers (690), |}, 
revenu total 6tait supérieur 4 $500. Le revel, 
total moyen déclaré uniquement 4 Revenu Canada jy 
c'est-d-dire omis dans le questionnaire du receth 
sement - est de $1,695.68. it 

ip 
tt 

Les caractéristiques personnelles des réponk, 
dants présents dans une seule’ source S OT fh 
intéressantes. Ces répondants comprennent 1 
personnes qui n'ont pas déclaré de revenu tangils 
ble 4 Revenu Canada. aE 

t 

Le nombre total de 1,171 répondants présentiy 
dans une seule source est largement dominé péb 
ceux qui ont fait une déclaration uniquement be 
Revenu Canada: 1,158. Contrairement Aa ce qu! 
peut observer dans l'ensemble des dossiers appé) 
riés, ily a pls: de personnes de sexe fémini) 
que de personnes de sexe masculin au sein de ¢\p 
groupe; au total, il y a en effet 28,344 PELSOT tty 
nes de sexe masculin et 15,542 de exe féminit fy 
L'é6tat matrimonial et l'age n'offrent pas hy 
constantes,. 


Ces données sont présentées de facgon sommail 
dans les tableaux 4 et 5; les chiffres de populk 
tion correspondants tirés du recensement de 19] 
Sont présentés pour fins de comparaison dans 1}, 
tableau 2. | 

Les 13 dossiers du recensement représentent uj, 
total de $0.049 million auxquels ne correspon 
aucune somme dans les dossiers de RC-I; a 1"im 
verse, les 1,158 dossiers présents uniquemen 
dans les fichiers de Revenu Canada représenten)», 
une somme de $1.963 million. L'omission moyenn 
dans les fichiers de RC-I s'établit a $3,769; a |p 
recensement, la moyenne est de $1,696. iM, 


s 


} 


é 
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The impact of having omitted total income 
is more pronounced on Census data than 
RC-T data, whereas partial or component 
ssions seem to have a greater impact upon 
enue Canada aggregates as will be seen in 
following sections. 


me Composition 


While omission of 
atively infrequent in the matched set, 
ponent reporting is inconsistent to a 
ter degree. Table 9 provides a quick 
rview. 


total income is 


Combining cells consistently reported in 
sources, or consistently empty in both 
rees, a consistency score shows’ that 
-age security ranks highest with 99.2%, 

investment income lowest with 79.4% 
reas total income (subject to taxation) 

been reported consistently in 97.3% of 

those cases where the match was judged 
be true. 


Inconsistent reporting does not tell the 
plete story. There are other problems and 
of these must be viewed in the light of 
filing of tax returns which results in 
-matches. On the other hand, inconsistent 
orting of components may frequently have 
tle impact on total income. This type of 
ect can be associated with component 
stitution; i.e., a component was reported 

both sources but under’ different 
ssifications. "Old-age security” in the 
Sus may conceivably appear as “pension” 
taxation files or vice versa. Similarly, 
es and self-employment income may have 
nm interchanged. Other examples could be 
ed. 


Components, as they appear in true 
ches, will now be examined for the pur- 
e of quantifying possible omissions and 
stitutions, and their effect on “total 
ome”. The analysis will be confined to 
words with “income subject to taxation” 
sent in both sources; i.e., true matches 
h a consistent reporting incidence of 
al income. If in addition to consistently 
lorted total income all components are 
sent in both sources, neither omissions 
substitutions exist, although magnitudes 
have been reported differently. 


The subset under review contains 42,/11 
ords and represents a total income of 
7.746 million on RC-T accounts and 
6.080 million on Census accounts. Thus, 
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L'omission du revenu total a donc des consé- 
quences plus marquées sur les chiffres du recen- 
sement que sur ceux de RC-I; a l'inverse, les 


omissions partielles semblent  entrafner des 
conséquences plus graves pour les agrégats de 
Revenu Canada. C'est d'ailleurs ce que nous 


verrons dans les sections qui suivent. 


Composition du revenu 


Bien que l'omission du revenu total soit rela- 
tivement peu fréquente dans les dossiers appa- 
riés, les incohérences sont plus nombreuses en ce 
qui concerne les éléments du revenu. Le tableau 9 
en donne un apercu. 


Si l'on groupe les cases simultanément présen- 
tes ou absentes dans les deux sources, on observe 
que les pensions de sécurité de la vieillesse 
viennent au premier rang (99.2%) et les revenus 
de placements, au dernier (79.4%); le revenu 
total (soumis 4 l'impét) a été déclaré dans 97.3% 
des appariements jugés justes. 


L'étude des incohérences ne nous renseigne pas 
parfaitement sur la situation. Il existe d'autres 
problémes, et certains d'entre eux doivent étre 
abordés du point de vue des non-appariements 
attribuables 4 la non-production des déclarations 
d'imp6t. En revanche, les incohérences dans la 
déclaration des éléments du _ revenu'_ peuvent 
n'avoir qu'une incidence négligeable sur le 
revenu total. Ce genre d'effet peut @étre associé 
a la substitution des éléments du revenu: un é1é- 
ment a 6té déclaré dans les deux sources, mais 
sous des rubriques différentes. Ainsi, les sommes 
rangées sous le titre “sécurité de la vieillesse” 
au recensement peuvent étre assimilées a des 
“pensions” dans les fichiers de l'impét, et vice 
versa. De méme, les salaires ainsi que le revenu 
d'un travail autonome peuvent avoir été donnés 
l'un pour l'autre. Les exemples ne manquent pas. 


Nous étudierons maintenant les éléments du 
revenu tels qu'ils figurent dans les appariements 
justes afin de quantifier les omissions et les 
substitutions possibles et d'apprécier leur effet 
sur le “revenu total”. Nous limiterons notre ana- 
lyse aux dossiers dans lesquels le “revenu soumis 
a l'impé6t" est présent dans les deux sources, 
c'est-a-dire aux appariements justes dans les- 
quels le revenu total a été déclaré de facon 
cohérente . Si le revenu total a été déclaré de 
facon cohérente et que ses divers éléments sont 
présents dans les deux sources, on peut dire 
qu'il n'y a ni omissions, ni substitutions; seuls 
les ordres de grandeur des sommes déclarées 
peuvent varier. 

Le sous-groupe étudié contenait 42,/11 dos- 
siers qui correspondaient a un revenu total de 
$237.746 millions dans les comptes de RC-I et de 
$246.080 millions, dans ceux du -_- recensement. 


the matched but unweighted Census sample 
over-states income subject to taxation by 
$8.334 million or 3.5% vis-a-vis RC-T. Nor- 
mally, this net effect can be observed when 
comparing aggregate amounts from unmatched 
files. The size of the error may be judged 
acceptable and is usually attributed to 
sampling. 


While sampling errors remain present, the 
difference described above is definitely 
attributable to reporting errors. It will be 
of more than just passing interest to anal- 
yse these reporting errors, and to reveal 
some of the offsetting fluctuations that 
result in the net effect. 


With reference to Table 10, it should be 
noted that the reporting incidence of compo- 
nents is fully compatible in 27,440 cases, 
or 64.2% of the subset under discussion. 
These records account for $141.316 million 
from Revenue Canada sources and $142.939 
million from the Census. The difference of 


Si.o25) MiLivon —constututes: lel,) of tora 
income from Revenue Canada as shown in 
record pairs with consistently reported 


components. 


Dividing the data set into three reli- 
ability categories shows that relative 
Overreporting in Census records does not 
occur uniformly. The reliability categories 
have been defined as follows: 


A. A high-reliability grouping where the 
absolute deviation between total income 
from both sources does not exceed $200 
and where this deviation does not consti- 
tute more than 20% of Revenue Canada 
total income. 


B. A low-reliability grouping where the 
absolute deviation in total income 
between Census and Revenue Canada sources 
is more than $200 and the corresponding 
percentage error is greater than 20%. 


C. An indeterminate grouping where a _ low 
absolute deviation constitutes a high 
percentage error, or where a _ high 
absolute deviation constitutes a low 


percentage error. This group exhausts the 
set and includes all records not classi- 
Pedal MO eB. a 


Table 11 depicts reliability relation- 
ships and shows that category A for records 
with a consistent reporting incidence of 
components contains 17,244 records, whereas 
group B is the smallest with 4,580 records, 
and C contains 5,616 records. 


- 34 


il y a un écart de $8.334 millions (3.52 
entre l'&échantillon apparié, mais non pondéré d 
recensement et les dossiers de RC-I. Normalement 
cet effet net peut s'observer si l'on compare de 
agrégats de fichiers non appariés. oe 
de l'erreur est acceptable; elle peut 6tre attri 
buée a 1'échantillonnage. 


Ainsi, 


Bien que l'hypothése de l'erreur d'échan 
tillonnage doive étre retenue, l'écart présent 
ci-dessus est manifestement imputable aux erreur 
de déclaration. Il sera done intéressant d'analy 
ser ces erreurs de déclaration et de présente 
certaines des variations qui en déterminen 
l'effet net. | 


Si l'on &tudie le tableau 10, 
la fréquence de déclaration des éléments ¢ 
revenu concorde pleinement dans 27,440 ca 
(64.2%). Ces dossiers représentent des sommes d 
$141.316 millions dans les dossiers de Reven 
Canada et de $142.939 millions, dans ceux d 
recensement. L'écart ($1.623 million) correspon 
done 4 1.1% du revenu total (RC-I). 


on observe qu 


Si l'on divise le groupe de données en troi 
catégories de fiabilité, on constate que la sur 
déclaration qui s'observe dans les dossiers d’ 
recensement ne se produit pas de fagon uniforme 
Les trois catégories de fiabilité ont 6té défi 
nies comme suit. 

A. Groupe a grande fiabilité of l'écart absol 
entre le revenu total donné dans les dew 
sources ne dépasse pas $200 et ot cet @écart n 
représente pas plus de 20% du revenu tota 
déclaré 4 Revenu Canada. 


B. Groupe a faible fiabilité ot 1'écart absol 
entre les deux revenus totaux est de plus d 
$200 et dans lequel le pourcentage d'erreu 
est supérieur a 20%. 


C. Groupe indéterminé od un faible 6cart absol 
entraine un fort pourcentage d'erreur et dan 
lequel un fort &cart absolu entrafne un faibl 
pourcentage d'erreur. Ce groupe exclut 18) 

dossiers de type A ou B. 


Le tableau 11 fait ressortir les rapport 
entre les niveaux de fiabilité. On observe notam 
ment qu'il y a dans la catégorie A, 17,241 
dossiers cohérents (sans omissions, ni substitu) 
tions), alors que ce chiffre s'établit a 4,58! 
dossiers dans la catégorie B et 5,616 dossier, 
dans la catégorie C. 


Group A departs from what appeared to be 
ie norm of relative overreporting of Census 
otal income. Census total income for this 
oup amounts to $84.722 million and Revenue 
a@nada total income is $84.857 million, an 
xcess of $0.135 million or 0.2% of Revenue 
anada totals. 


Group B, being a low-reliability cate- 
ory, shows a reporting difference of $2.4 
illion with Census supplying the excess; 
e relevant totals are $20.519 million and 
18.091 million for Census and Revenue Cana- 
respectively, and the percentage error 
ased on Revenue Canada totals is 13.4%. 


The corresponding figures for group C are 
87.698 million and $38.368 million with the 
cess of $0.670 million going to the tax 
epartment, and representing 1.7% of total 
income from Revenue Canada files. 


| 
} It can be stated in summary that consis-— 
lent reporting incidence of components and 
lose agreement in "total income” conceals 
he fact that offsetting reporting errors 
ffect subpopulations to a greater degree 
han any global figure could indicate. 


Let us now review 15,271 records with 
consistent reporting patterns; i.e., those 
eing encumbered with component omissions 
nd component substitutions. 


| These records represent 35.8% of all true 
jatches with consistently reported total 
enc. They account for $103.141 million 
otal Census income and $96.430 million 
tal RC-T income, with Census being, as 
- relatively high (see Table 11). The 
afference of $6.711 million is 7.0% of 
evenue Canada derived total income. Row 10 
Table 11 shows further disaggregation of 
ese data for the various’ reliability 
popups. 


_ The relatively small number of 15,271 
Meonsistent records contributes the largest 
mount to the reporting error; although 
riation in errors between categories is 
jarge for consistent and inconsistent 
uubsets. 


The subset of records with inconsistent 
omponent reporting will now be further 
crutinized. A few general statements are in 
rder to highlight some of the underlying 
\ssumptions and basic characteristics per- 
jaining to this subset. 


_ Given that matched records have been 
uudged true and that “total income” is 
‘resent in both sources (Census and RC-T), 


‘omponents of the same type may or may not 
' 
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Le groupe A s'écarte de ce qui semble étre la 
norme du sur-déclaration relative du revenu total 
au recensement. En effet, le revenu total pour ce 
groupe s'éléve a $84.722 millions d'aprés les 
résultats du recensement et A $84.857 millions, 
d'aprés Revenu Canada, ce qui représente un écart 
de $0.135 million, soit 0.2% du total de Revenu 
Canada. 


Le groupe B correspondant 4 la catégorie 4a 
faible fiabilité, l'écart est de $2.4 millions: 
$20.519 millions d'aprés les résultats du 
recensement et $18.091 millions d'aprés Revenu 
Canada, ce qui correspond a4 un _ pourcentage 
d'erreur de 13.4%. 


Les chiffres correspondants pour le groupe C 
sont de $37.698 millions et $38.368 millions, ce 
qui représente un excédent de $0.670 million en 
faveur de Revenu Canada (1.7% du revenu total). 


En résumé, la cohérence des éléments déclarés 
et la concordance du “revenu total” masquent le 
fait que certaines erreurs de déclaration s'annu- 
lant mutuellement touchent bien plus certaines 
sous-populations que les chiffres totaux ne 1l'in- 
diquent. 


Examinons maintenant les 15,271 dossiers ou il 
y a eu incohérence, c'est-d-dire oti certains 616- 
ments du revenu ont été omis ou substitués. 


Ces dossiers représentent 35.8% de l'ensemble 
des appariements justes dans lesquels le revenu 
total a é&té correctement déclaré. Leur valeur 
s'éléve a $103.141 millions au recensement et 
$96.430 millions dans les dossiers de RC-I, les 
chiffres du recensement é&tant encore une fois 
relativement élevés (voir tableau 11). L'écart, 
$6.711 millions, @équivaut 4 7.0% du revenu total 
de Revenu Canada. Dans la ligne 10 du tableau ll, 
ces données sont ventilées en fonction des divers 
groupes de fiabilité. 


Ainsi, c'est a un nombre relativement peu 
élevé de dossiers incohérents (15,271) qu'on doit 
imputer la majeure partie des erreurs de déclara- 
tion; le taux de variation des erreurs d'une 
catégorie a l'autre n'en demeure pas moins impor- 
tant. 


Nous examinerons maintenant plus a fond le 
sous-ensemble constitué par les dossiers dans 
lesquels certains 6léments du revenu n'ont pas 
été déclarés de fagon uniforme. Nous donnerons 
auparavant un apercu des hypothéses sous-—jacentes 
et des caractéristiques fondamentales de ce 
sous—ensemble. 


Supposons que des dossiers appariés l'ont été 
correctement et que le “revenu total” est donné 
dans les deux sources (recensement et RC-I), mais 
que les éléments du revenu peuvent avoir 6té 


have been reported in both sources. If all 
equivalent components, not more, not less, 
have been reported in both sources, the 
reporting incidence is consistent and the 
record is not subject to the present analy- 
sis. If some or all components fail to be 


conceptually identical in the two sources 
for any given record, two possibilities 
arise: 


(a) the component may have been omitted in 
one source; 


(b) the component may have been reported 
under a different category heading; 
i.se., a substitution by way of misclas- 
sification has taken place. 


Ine Gheretirste instance,.. the ettect Joni 
total income would normally be larger than 
in the second, where total income is only 
affected if the substituted component also 
differed in magnitude. 

For any given individual, if a certain 
component is present in the primary file 
(Census) without being offset by another 
unpaired component in the secondary file 
(RC-T), an omission in the secondary file 
must be assumed. Conversely, omissions in 
the primary file can be established. Similar 
reasoning can be applied for two, three and 
more omissions. 


Substitution through misclassification 
arises when one or more components occur 
exclusively in the primary data string of a 
record and when the same number of compo- 


nents appears in the secondary ' record 
string, but under different classifiers. 
Where the number of “unpaired” components 


differs between primary and secondary record 
strings, the excess in one file origin be- 
comes an omission in the other file origin. 


scheme in 
substitutions for 


The resulting classification 
terms of omissions and 
reliability groups has been summarized in 
Tables 12 to 14. Records in reliability 
category B can be expected to contribute the 
largest share to the reporting discrepan- 
cies, whenever omissions are involved. The 
magnitude of the omissions will be reflected 
as a shortfall in total income and may or 
may not be reinforced by recall deficiencies 
in otherwise consistently reported income 
components. 


Whenever substitutions dominate a set of 
records, it is difficult to state a-priori 
which reliability category will contribute 
the largest amount to total income discrep- 
ancies. However, category B remains. the 
leading contributor to total income discrep- 
ancies under any classification scheme. A 
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donnés ou non dans les deux sources. Si tous Il 
éléments déclarés dans les deux sources. sol 
parfaitemet identiques, on dit des déclaratio: 
qu'elles sont cohérentes, et le dossier n'e 
donc pas soumis a l'analyse qui nous intéress 
Si certains éléments ne sont pas conceptuelleme 


identiques dans les deux sources, de 
possibilités s'offrent 4 nous: 
a) l'élément peut avoir été omis dans uw 


source; 


b) 1'élément peut avoir été rangé dans une aut 
catégorie; il y a alors substitution résu 
tant d'une erreur de classement. 


Z 


L'effet de l'omission sur le revenu total e 
normalement plus grand que celui de la substit 
tion, le revenu total n'étant touché que si 1] 
éléments en question différent. 


Pour tout dossier donné, si un certain éléme 
est présent dans le fichier primaire (recens 
ment), mais qu'il ne correspond a aucun aut 
élément non apparié du fichier secondaire (RC-I 
on doit poser qu'il y a eu omission dans 
fichier secondaire. Il y a omission dans 
fichier primaire si le phénoméne inverse s'e 
serve. Le méme raisonnement peut s'appliquer 
plusieurs omissions. 


Il y a substitution résultant d'une erreur 
classement quand un ou plusieurs éléments parai 
sent dans les données primaires et qu'un nont 
correspondant d'éléments figure dans les donné 
secondaires, mais sous des appellations diffi 
rentes. Les éléments d'un dossier qui n'ont | 
leur pendant dans l'autre correspondent a (¢ 
omissions. 


Le classement des omissions et des substil 
tions par groupes de fiabilité est présenté di 
les tableaux 12 4 14. Les divergences de décla: 
tion imputables aux omissions sont le p. 
souvent associées a des dossiers de la catégo’ 
de fiabilité B. L'ordre de grandeur des omissii 
prend la forme d'un déficit dans le revenu to’ 
et peut ou. non étre aggravé par les oublis 
l'égard d'autres éléments de revenu déclarés di 
les deux sources. 


Si les cas de substitution dominent un ens 
ble de dossiers, il est difficle de détermine 
priori la catégorie de fiabilité qui introduit 
plus d'écart dans le revenu total. La catégori'/ 
demeure néanmoins a4 cet égard la plus importan’ 
Un simple examen de l'écart moyen par doss 
(erreur d'observation moyenne) du groupe B d 


: 
] 
| 


lance at the income discrepancy per record 
Average NSE) for group B in Tables 12 to 14 
hows that “B” retains the largest average 
ithin each subset classified by incidence 
fF omission or substitution. 


The greatest single contribution to the 
ygregate reporting error has been made by a 
roup of records where one component on the 
snsus record had no counterpart on the tax 
sturn. Table 12 shows a difference in total 
rvcome for this group of $4.771 million; 
.e., total income has been reported in the 
mount of $4.784 million to Revenue Canada 
id $9.555 million to the Census, thereby 
reating an average excess of $4,287 in the 
ansus sample, this subset contains 1,113 
servations. 


The second greatest contribution to the 
sporting error of total income is also made 
7 a group of records in category B. This 
-oup is characterized as’ having substituted 
1@ component and the results are shown in 


ible 13. There are 906 records which 
‘count for a Revenue Canada deficiency 
fea-yvis Census of $2.603 million, or 


fe73 per record. 


The third-ranking group is made up of 
‘cords in reliability group B and is clas- 
fied as having two or three component 
lissions on their tax return. This group of 
(0 records accounts for a Revenue Canada 
fetfali of $1.610 million, or $11,500 per 
ccord. The relatively small number and the 
atively large error per record suggest 
issible census processing errors, or the 
ssibility of some false matches remaining 
. the data set. 


| 
The largest number of records where com- 


ments have been reported inconsistently 
pears in Table 12, reliability category A, 
d is made up of respondents with one 
Mponent omitted in the Census. The second 
Tgest number of records originates with 
@€ same group, in reliability category C. 
contains 2,640 records. The third ranking 
bset also belongs to the same group (one 
mSus component omitted), and consists of 
139 respondents in reliability category 
In terms of membership, the fourth- 
ting set consists of 1,113 respondents 
owing one omission in Revenue Canada 
cords. This group was described above 
cause it is responsible for the greatest 
Mtribution to the reporting error in 
8regate dollar terms. 
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B dans les tableaux 12 4 14 montre que la caté- 
gorie B a la moyenne la plus élevée, quel que 
soit le sous-ensemble étudié. 


Le facteur qui a a lui seul contribué le plus 
a l'erreur de déclaration globale a été 1'absence 
dans un groupe de déclarations d'impét d'éléments 
que l'on trouvait dans les dossiers du recense- 
ment. Le tableau 12 montre que la différence dans 
le revenu total pour ce groupe s'éléve 4 $4.771 
millions; en d'autres termes, les revenus totaux 
déclarés A Revenu Canada et au recensement ont 
été respectivement de $4.784 millions et $9.555 
millions, ce qui s'est traduit par un excédent de 
$4,287 millions pour l'échantillon du _ recense- 
ment. Le sous-ensemble contient 1,113 observa- 
tions. 


L'erreur de déclaration du revenu total qui 
vient au deuxiéme rang est également imputable 4 
un groupe de dossiers de la catégorie B. Dans ce 
cas, il y a eu substitution d'un élément du 
revenu (les résultats sont présentés au tableau 
13)., Gtéeart: provient de 906: .dossierss.. Ici 
encore, le revenu total déclaré 4 Revenu Canada 
est inférieur aux chiffres du recensement; 
l'écart s‘'établit a $2.603 millions, ce qui 
représente $2,873 par dossier. 


Au troisiéme rang viennent des dossiers 
du groupe de fiabilité B dans Jlesquels deux 
ou trois éléments ont été oomis dans. la 


déclaration d'impét. Ce groupe de 140 dos- 
siers représente un déficit de $1.610 
million pour Revenu Canada, soit $11,500 par 


dossier. Comme il y a assez peu de dossiers et 
que l'erreur est relativement importante, il y a 
probablement erreur d'exploitaiton au recense- 
ment; il se peut également que le groupe con- 
tienne un certain nombre de dossiers appariés par 
erreur. 


C'est dans le tableau 12 (catégorie de fiabi- 
1ité A) que se trouve le plus grand nombre de 
dossiers ot la déclaration de certains éléments 
présente des incohérences; le groupe est composé 
des répondants qui ont omis un élément au recen— 
sement. Le sous-ensemble qui suit appartient au 
méme groupe, mais se présente dans la catégorie 
de fiabilité C; il est composé de 2,640 dos- 
siers. Au troisiéme rang, viennent 2,139 dossiers 
du méme groupe, mais de la catégorie B. Au qua- 
triéme rang, enfin, vient un groupe de 1,113 
répondants qui ont commis une omission dans leur 
déclaration d'impét. Ce groupe a déja été décrit; 
il est en effet responsable de la plus importante 
erreur de déclaration en termes monétaires. 


The first three largest sets described 
above contributed $0.111 million, $0.799 
million and $1.037 million respectively to 
the reporting error. Since these amounts are 
associated with Census omissions, a relative 
short-fall of Census income vis-a-vis Rev- 
enue Canada was observed. 


The average shortfall per record is $29, 


$303, and $485. These amounts fall within 
the recording capability of the Census, 
where amounts have been rounded to the 


nearest $10. 


The foregoing comments are intended to 
highlight the tabular material. The reader 
may wish to make further inferences from the 
data supplied in the accompanying tables. 


So far, true matches have been examined 
for reporting consistency by attribute 
classes of individual records, such as reli- 
ability category, and incidence or mix of 
omissions and substitutions. The aggregate 
income effect was emphasized. This analysis 
will now be extended to the provincial 
level, where consistent and inconsistent 
record groups will be reviewed. 


As before, the “true match” subset yields 
27,440 consistent matches out of 42,711, or 
64.2%. This national consistency rate ranges 
between provinces from a low of 62.8% in 
Saskatchewan to a high of 69.0% in Newfound- 
land. Table 10 is offered for closer study. 
It shows that all provinces east of Ontario 
have a consistency rate higher than the 
national average, whereas Ontario and prov- 
inces west thereof remain below the national 
consistency rate. 

The incidence of inconsistent reporting 
Low now kindtleatton Wot, thes teitect | ton ttotal 
income. Nationally, consistent records are 
asso0ectated swith wan ercor oF ell; of total 
income and inconsistent records show a 
reporting difference of 7.0%. These errors 


range from (0.3% (Novai’ Scotia) to 5.52 
(Prince Edward Island) for consistent 
recordssand frome. 4 Ontario) bo e822 312 


(Saskatchewan) for inconsistent records. 


The average non-sampling effect for true 
matches is $59 for records with consistently 
reported components, and $440 for those with 
components subject to omission or substi- 
tution, as observed at the national level. 
The average non-sampling effect ranges for 
consistent records between $16 (Nova Scotia) 
to $276 (Saskatchewan), and for inconsistent 
records between $234 (Ontario) and $949 
(Saskatchewan). 
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Les trois premiers ensembles énumér 
ci-dessus ont  respectivement introduit d 
erreurs de déclaration de $0.111 million, $0.7 
million et $1.037 million. Ces sommes éta 
associées a des omissions au recensement, 1 
chiffres du recensement sont inférieurs a ceux 
Revenu Canada. 


Le déficit moyen par dossier s'établit 
$29, $303, et $485. Ces sommes correspondent a 
possibilités de prise en compte du recensemen 
les revenus ayant @té arrondis a $10 prés. 


Les commentaires présentés ci-dessus avaie 
pour objet de donner un apergu des tableaux. No 
invitons néanmoins le lecteur qui aimerait ét 
dier la question plus 4a fond a consulter ¢ 
derniers. 


Jusqu'ici, nous avons étudié la cohérence 
déclaration des appariements justes en catégor 
sant les dossiers (fiabilité, fréquence des omi 
sions et des substitutions). Nous nous’ somm 
surtout attachés aux effets de ces phénoménes sg? 
le revenu global. Nous ferons maintenant port! 
notre analyse sur la répartition par province d 
groupes de dossiers cohérents et incohérents. 


Ici encore, les sous-ensemble des appariemen;3 
justes comprend 27,440 appariements cohérents § 
42,711, soit 64.2%. Ce taux de cohérence nation 
oscille entre un creux de 62.8% en Saskatchew 
et un sommet de 69.0% ad Terre-Neuve. Le tablet 
10 mérite d'étre Gtudié attentivement. On 
apprend que toutes les provinces 4 l'est © 
l'Ontario ont eu un taux de cohérence supérieur! 
la moyenne nationale, alors que l'Ontario et ] 
provinces de l'ouest ont eu un taux inférieur 
la moyenne nationale. 


La fréquence des incohérences ne nous renset 
gne pas sur leur effet sur le revenu total.f 
l'échelle nationale, les dossiers cohérents s¢ 
en effet associés 4 un taux d'erreur de 1.12% 


revenu total, alors que le taux d'erreur ¢6 
dossiers incohérents est de 7.0%. Les taux 4 
situent entre 0.3% (Nouvelle-Ecosse) et 5:4 


(f1le-du-Prince-Edouard) dans le cas des dossi¢ 
cohérents et entre 3.3% (Ontario) et 2m 
(Saskatchewan), dans celui des dossiers incob 
rents. 


En ce qui concerne les appariements juste, 
l'effet d'observation moyen est de $59 dans 2 
cas des dossiers ot les éléments du revenu ( 
été déclarés de fagon uniforme et de $440, das 


celui dont certains éléments ont été omis 
substitués. A  1'échelle nationale tou jouty 
l'effet d'observation moyen se _ situe 


de Wi 
(Nouvelle-Ecosse) 4 $276 (Saskatchewan) dans 2 
cas des dossiers cohérents et de $234 (Ontario 4 
$949 (Saskatchewan), dans celui des dossitS 
incohérents. 


Ranking all 10 provinces, while including 
e Territories with British Columbia, the 
ly consistent picture which emerges is 
at of Saskatchewan, and it is consistently 
dequate. This province shows weaknesses 
every respect; i.e., its consistency rate 
lowest (worst) and its average reporting 


‘ror for consistent and _ inconsistent 
peords is highest (worst). The percentage 
fect on total income is also highest 


rorst) for records with consistent as well 
¢ with inconsistent component reporting. In 
(her words, Saskatchewan occupies the most 
ferior position "10" in all classifying 
bsets when consistency of component 
porting and associated income effects are 
‘amined. 


The results for all provinces in terms of 


msistency rates and average reporting 
rors for consistent and inconsistent 
cords are summarized in the following 
ragraphs. 

Newfoundland ranks "one" in terms of 
msistency rates, "three" for average 


erors on consistent and inconsistent record 
‘ts ° 


Prince Edward Island ranks "three" with 
tape ct to its consistency rate, but average 
in-samp ling effects rank "eight" and 
even” for consistent and inconsistent 
‘cords respectively. 

Nova Scotia ranks “four” in terms of its 
ngsistency rate, occupies top spot “one” in 
‘mms of average errors on consistent 
‘cords, but drops to “eight” in terms of 
verage errors on inconsistent records. 


: New Brunswick 


Eankse stwor,e) -Lour, and 
“wo” for consistency incidence, and average 
(rors on consistent and inconsistent sets 


meee ively. 


“ ; ‘ 
Quebec occupies the midrange of ranks in 


1 three categories in the order stated 
me, namely ranks of "five", “six”, and 
four" with respect to consistency inci- 


mce, and average non-sampling effects for 
imsistent and inconsistent records. 


' Ontario shows a mix of ranks, namely 
tine", "five", and “one” for the categories 
feeoned above. 


| Manitoba fluctuates less than Ontario. It 
Banked “six”, “two”, and "six" for the 
ree categories under review in the order 


| ated above. 


| Saskatchewan, as stated before, is con- 
stent ly inadequate, it ranks "10" for all 
Tee categories. 


| 
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Si l'on groupe les Territoires et la Colom- 
bie-Britannique et qu'on attribue un rang a 
chacune des provinces, le seul phénoméne qui 
offre une certaine cohérence est la place occupée 
par la Saskatchewan. Cette province occupe en 
effet le dernier rang a tous égards. La Saskat- 
chewan a le taux de cohérence le plus faible (le 
pire); c'est également dans cette province que 
l'erreur d'observation moyenne, aussi bien pour 
les dossiers cohérents que pour les dossiers 
incohérents, est la plus élevée (la pire). C'est 
également en Saskatchewan que l'effet sur le 
revenu total des dossiers cohérents et incohé- 
rents est le plus &levé (le pire). En d'autres 
termes, la Saskatchewan occupe le 10e rang dans 
chacun des modes de classement en ce qui concerne 
l'uniformité de déclaration des composantes et 
les effets sur le revenu qui y sont associés. 


Dans les paragraphes qui suivent, nous exami- 
nerons briévement les résultats obtenus par 
chacune des provinces a l'égard des taux de cohé- 
rence et de l'erreur de déclaration moyenne des 
dossiers cohérents et incohérents. 


Terre-Neuve vient au 1©" rang en ce qui con- 
cerne les taux de cohérence, et au 3e pour ce qui 
est de l'erreur moyenne des dossiers cohérents et 
incohérents. 


L'fle-du-Prince-fidouard occupe le 3e rang en 
ce qui concerne le taux de cohérence mais le 8e 
et le 7e pour ce qui est de l'effet d'observation 
moyen des dossiers cohérents et incohérents. 


La Nouvelle-Ecosse, pour sa part, vient au 4e 
rang pour ce qui est du taux de cohérence, occupe 
le 1©* rang au chapitre de l'erreur d'observation 
moyenne des dossiers cohérents, mais passe au 8e 
rang en ce qui concerne l'erreur d'observation 
moyenne des dossiers incohérents. 


Le Nouveau-Brunswick occupe respectivement le 
2e, le 4e et le 2e rang. 


Le Québec occupe une position moyenne dans 
chacune des trois catégories; il occupe en effet 
le 5e, le 6e et le 4e rang en ce qui concerne le 
taux de cohérence et l'effet d'observation moyen 


des dossiers cohérents et des dossiers incohé- 
rents. 
L'Ontario occupe diverses positions; il se 
; er 
classe respectivement au 9e, au 5e et au | 
rang. 


Le Manitoba occupe des positions moins extré- 
mes que l'Ontario. Il vient au 6e, au 2e et au 6e 


rang. 


La Saskatchewan, comme nous lL'avons vu, occupe 
dans les trois cas la 10e position. 


between Saskatchewan and 
in terms of non-sampling 


Alberta falls 
British Columbia, 


errors. It is ranked "seven", "seven", 
“nine”, for consistency rate, and average 
non-sampling income effect for consistent 


and inconsistent records respectively. 


British Columbia, including the Territo- 


ries, is  second-lowest in the overall 
assessment. The respective rank orders are 
veighery, Sniner;; anda "five, . 


It should be recalled that the foregoing 
analysis has been restricted to matched 
records, provided these records had been 
judged true. it is conceivable that a larger 
success rate may result in lower consistency 
rates. It is also possible that lower 
taxfiling incidences in the provinces east 
of Ontario may lead to more consistent data 
whenever a tax return has been filed and a 
match was brought about. In other words, a 
tradeoff in quantity versus quality may 
exist at the collection stage, where data 
eollection relates) to the» filing of / tax 
returns. 


To follow this line of reasoning, 
taxfiler rates have been calculated and are 
shown in Table 15. They have been expressed 
as a percentage of the 1971 adult Census 
population (15 years and over), and the 
number of tax returns filed by early spring 
of 1971. It can be readily observed that all 
provinces east of Ontario remain below the 
mational rate of 60.2%, whereas all prov- 
inces west of Quebec, except Saskatchewan, 
are above the national rate. 


Since matching a_ record successfully 
presupposes the filing of a tax return, one 
may hypothesize that the match rate is cor- 
related with the taxfiler rate. The match 
rate is defined as the ratio of true matches 
out of the estimated tax universe expressed 
in per cent. The propensity to file a tax 
return is based exclusively on Census income 
information, and dependency relationships 
within families. 


Match rates are also shown in Table 15. 
The national rate of 91.5% is exceeded by 
all provinces west of Quebec, and by Nova 
Scotia in Eastern Canada. Ranking all prov- 
inces by their taxfiler rate and by their 
match rate reveals that these two rates are 
correlated. The statement is based on a 
Spearman rank correlation coefficient of 
0.70 which is significant at the 5% level. 


Instead of using the match rate, 
oo. defined, 
lated. 


as pre- 
a success rate was calcu- 
This rate is made up of the sum of 


=: 46 


En ce qui concerne Ll'erreur d'observatio1 
l'Alberta se place entre la Saskatchewan et 
Colombie-Britannique. Elle vient au 7e rang pow 
ce qui est du taux de cohérence et respectivemet 
au 7e et au Ye rang en ce qui concerne l'eff¢ 
d'observation moyen des dossiers cohé6rents ¢ 
incohérents. 


La Colombie-Britannique (Territoires comprig 
occupe globalement l'avant-dernier rang. Elle € 
classe respectiveent 8e, 9e et Se. 


Il convient de rappeler que cette analyse 
été limitée aux dossiers qui ont fait 1l'obj¢ 
d'un appariement juste. Il est raisonnable ¢ 
croire que plus le taux de réussite augmenté¢ 
plus le taux de cohérence diminue. Il se pew 
également que la faiblesse relative du taux ¢ 
déclaration a l'impét dans les provinces 4 1'eg 
de l'Ontario fasse que les données soient plu 
cohérentes quand une déclaration d'impét a &t} 
produite et qu'il y a eu appariement. En d'autre 
termes, il se peut qu'on doive attacher ply 
d'importance a la qualité qu'a la quantité de 
données au moment de la collecte, particuliére 
ment si les chiffres recueillis ont rapport a | 
production de déclarations d'impét. 


C'est pour cette raison que nous avons calcul 
les taux de déclaration 4 l'impét; ces chiffre| 
sont présentés au tableau 15. Ils sont exprimé 
en pourcentage de la population adulte au recet 
sement de 1971 (15 ans et plus) et du nombre c 
déclarations d'impét produites au début du prir 
temps 1971. Il est facile de voir que toutes ie} 
provinces a l'est de l'Ontario demeurent sous J) 
taux national de 60.2%, alors que les provinces | 
l'ouest du Québec - exception faite de la Saskat_ 
chewan - se placent au-dessus du taux national) 


Comme l'appariement ne peut se faire que ¢§ 
une déclaration d'impé6t a &té produite, on peu 
Supposer que le taux d'appariement est lié ¢ 
taux de déclaration a l'impét. Par définition, 1] 
taux d'appariement 6équivaut au rapport entre ]) 


nombre d'appariements justes et l'univers fisca 


estimatif; il est exprimé en pourcentage. La ter 
dance a produire une dé€claration d'impét' es) 
mesurée uniquement a4 partir des chiffres ¢ 


recensement sur le revenu et des liens de parent 
des personnes au sein des familles. 


Les taux d'appariement sont également préser: 
tés au tableau 15. Le taux national de 91.5% es! 
dépassé par toutes les provinces a l'ouest d 
Québec et par la Nouvelle-ficosse. Si l'on class 
les provinces en fonction du taux de déclaratic 
a co odaake et du taux d'appariement, on constat’ 
qu'il y a un rapport entre les deux. Cette obser 
vation s'appuie sur le coefficient de corrélatic 
par rangs Spearman (0.70, significatif a 5%). 


Plutét que d'utiliser le taux d'appariement 
nous avons calculé un taux de réussite. Pou. 
établir le taux, nous avons fait la somme de 


| 
‘ 


all true matches and all true non-matches as 
percentage of all adults in the sample. It 
han also be viewed as the complement to the 
failure rate which is expressed in terms of 
ll “false non-matches” out of all adults 
in the sample. It should be recalled that 
‘alse non-matches are the only unresolved 
failures after “false matches" have been 
fonverted into non-matches and then judged 
ftrue or false” with respect to the non- 
yatch decision. 


|” The 


provincial success rate is highly 
sorrelated with the provincial match rate. 
tank correlation of these two rates is 0.86, 
nd is statistically significant at the 5% 
-evel. The’ rank correlation coefficient 
etween success rate and taxfiler rate, 
however, is no longer significant. Lack of 
significance compared to significance of the 
first two rates may indicate the possibility 
f improving match rates by upgrading 
taxfiler coverage, whereas the validity of 


hon-match decisions remains independent 
thereof. 

} 

' Consistent reporting of components’ on 


crue matches is inversely correlated with 
che provincial match rate, also judged by 
the Spearman rank correlation coefficient. 
fhe coefficient is - 0.78, which is signifi- 
bant at the 5% level. This negative correla- 
fion could imply that higher taxfiling 
activity is accompanied by a greater inci- 
fence of omissions or substitutions. It 
rould also mean that in high-taxfiler areas, 
a higher percentage of taxfilers is complet- 
img Census questionnaires without resorting 
fo tax return comparisons, thereby increas— 
ing the incidence of inconsistently reported 
items. 


} The discussion of non-sampling effects in 
terms of consistent component’ reporting, 
impact on total income, and _ provincial 
variation will now shift to specific compo- 
nents. Selected components will be discussed 
in terms of likely substitutability as a 
result of misclassification by the respon- 
Hent. 


In interview surveys, and probably even 
‘nore frequently in self-enumeration surveys, 
such as the Census, misclassification of 
‘iimcome components arises from lack of per- 
feption by the respondent. Either instruc— 
tions are not read, are misinterpreted, or 
[tems are entered into questionnaires with 
))reconceived ideas. Since the reason for 
fsomponent collection must often be sought in 
the desire to get more reliable totals 
through avoidance of omissions, the level of 
‘individual components may be of limited 
iimterest. Nevertheless, reconciliations by 
jtomponents are attempted later on. Moreover, 


! 
| 


= Atel 


appariements et des non-appariements justes et 
nous l'avons exprimée en pourcentage du nombre 
d'adultes dans 1l'échantillon. Il correspond d'une 
certaine fagon au complément du taux d'échec qui 
équivaut a la proportion “non-appariements 
erronés/adultes dans 1l'échantillon". Il convient 
de se rappeler que les non-appariements erronés 
ne représentent que les @échecs non résolus aprés 
que les appariements erronés ont été convertis en 
non-appariements, puis jugés justes ou erronés. 


Le taux de réussite provincial est intimement 
1ié au taux d'appariement provincial. Le facteur 
de corrélation par la méthode des rangs de ces 
deux taux est de 0.86; son niveau de significati- 
vité statistique est de 5%. Le coefficient de 
corrélation entre le taux de réussite et le taux 
de déclaration a l'imp6t, en revanche, perd toute 
signification; cela signifie peut-étre qu'on 
pourrait accroitre les taux d'appariement en 
anéliorant l'observation des contribuables, la 
validité des décisions relatives aux non-apparie- 
ments demeurant insensible a la qualité de 
l'observation. 


Comme le montre le coefficient de corrélation 
Spearman, il y a un rapport inverse entre la 
cohérence de la déclaration des éléments du 
revenu dans les appariements justes et le taux 
d'appariement provincial. Le coefficient, dans ce 
cas, est de - 0.78 (il est significatif a 57). Ce 
coefficient de corrélation négatif signifie 
peut-étre que les forts taux de déclaration 4 
l'impé6t sont 1liés A une plus grande fréquence 
d'omissions ou de substitutions. Il se peut éga- 
lement que, dans les régions ot le taux de décla- 
ration a l'impdt est élevé, une plus forte 
proportion des contribuables remplissent leur 
questionnaire de recensement sans consulter leur 
brouillon d'imp6t, ce qui accrofit d'autant les 
risques d'incohérence. 


Nous analyserons maintenant les effets d'ob- 
servation en fonction de certains éléments du 


revenue. Nous aborderons notamment la question 
sous l'angle des possibilités de substitution 
attribuables a des erreurs de classement des 


répondants. 


Dans les enquétes par interview - et plus 
souvent encore dans les enquétes par autodénom- 
brement telles que le recensement - les erreurs 
de classement des éléments du revenu sont le plus 
souvent imputables aux fautes d'interprétation 
des répondants. Il se peut par exemple que les 
répondants ne lisent pas les instructions, qu'ils 
les comprennent mal ou qu'ils inscrivent leurs 
réponses en ayant des idées précongues. Comme on 
recueille le plus souvent les données sur le 
revenu par éléments afin d'obtenir des chiffres 
plus fiables en évitant des omissions, les é1é- 
ments n'offrent parfois qu'un intérét limité. Il 
arrive néanmoins qu'on procéde a des rapproche- 


major income sources are determined on the 
basis of component reporting, and various 
statistics are produced on the strength of 
these components. 


As was mentioned earlier, the reliability 
of components is often determined on the 
basis of observable differences between data 
sources. Such differences, however, are net 
of offsetting errors; e.g., one may observe 
a net difference in farm income which may 
indicate that farm income is too small rela- 
tive to some other source. However, some 
farm income may have been reported under 
other categories, thereby creating a defi- 
ciency, whereas other non-farm components 
may have slipped into the farm slot, 
thereby reducing this deficiency. 


Employment income components have been 
misclassified in the past, although a 
precise quantification was always difficult 
to ascertain. It will now be attempted to 
quantify the misclassification effect. Sub- 
stitutions because of misclassification 
occur between wages and salaries, non-farm 
income from self-employment, and farm income 
from self-employment. Substitutions may take 
place in any combination, but for analytical 
purposes it is assumed that any substitution 
within the employment-income subset involves 
only two components for any record. 


A record may reveal wages and salaries 
exclusively on the Census questionnaire and 
farm income exclusively on the RC-T file. It 
is assumed under these circumstances that 
wages on the Census questionnaire have been 
substituted for farm income. Similarly, 
another record may show farm income (from 
self-employment) exclusively on the tax 
return and non-farm income from self~-employ- 
ment exclusively on the Census question- 
naire. Substitution of non-farm for farm 
income on the Census questionnaire is 
assumed under these circumstances. 


If a given record were to have wages on 
the tax return but no other employment 
income, and farm income and non-farm income 
from self-employment on the Census question- 
naire, a substitution of farm income for 
wages as well as a substitution of non-farm 
income from self-employment for wages would 
be counted, where in fact one substitution 
and one omission could exist. However, the 
likelihood of this occurrence is remote. 
Only 2.5% (22/870) of all records with farm 
net income as a major source show non-farm 
self-employment income as a secondary 
source. For non-farm self-employment income 
aS a major source only 4.2% (69/1,657) of 
all records have farm income as 
source. While these figures 


a minor 
do not supply 
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ments par élément. De plus, les chiffres sur les 
principales sources de revenu et diverses autres 
statistiques sont é@tablis en fonction de ces 
éléments. n 
* | 
Comme nous l'avons déja vu, la fiabilité de 
éléments du revenu est souvent déterminée ei 
fonction des différences qui peuvent s'observe} 
entre les sources de données. Ces @écarts, toute 
fois, ne sont pas exempts d'erreurs. Ainsi, or 
pourra observer un écart net au titre du revent 
agricole qui signifiera que le revenu ae 
est trop peu @levé par rapport aux autres sour 
ces. Toutefois, certains revenus agricoles peu 
vent avoir été rangés dans d'autres catégorie 
et certains revenus non agricoles peuvent avo 
été assimilés par erreur a des revenus agricole 
l'écart créé par le premier groupe d'erreut 
étant réduit d'autant. 
Les @léments du revenu de l'emploi ont souven) 
été mal classés dans le passé, bien qu'il soi} 
difficile d'établir dans quelle proportion. Now 
allons ici tenter de quantifier l'effet de ce 
erreurs de classement. Les substitutions attri: 
buables aux erreurs de classement touchent li 
rémunération, le revenu non agricole tiré d'w 
emploi autonome et le revenu agricole tiré d'w 
emploi autonome. Les substitutions peuven 
prendre plusieurs formes; pour les fins de 1l'ana 
lyse, toutefois, nous supposerons qu'elles ni 
touchent que deux éléments du revenu dans un mém 
dossier. 


Un dossier peut faire état de rémunération) 
dans le questionnaire du recensement et d'wu 
revenu agricole dans le fichier de RC-I. Dans ce 
circonstances, on suppose que les rémunération 
déclarées au recensement ont en fait été substi 
tuées ad un revenu agricole. De méme, il peu 
arriver qu'un contribuable ait indiqué un revem 
agricole (tiré d'un emploi autonome) dans i 
déclaration d'impét, mais qu'il ait indiqué u 
revenu non agricole tiré d'un emploi autonoll 
dans le questionnaire du recensement. Dans ce 
circonstances, on suppose que le revenu non agr: 
cole a été substitué au revenu agricole dans 1 
questionnaire du recensement. 


Si un dossier contient des rémunérations dan 
la déclaration d'impé6t, mais aucun autre reven 
de l'emploi, et un revenu agricole ainsi qu'u 
revenu non agricole tiré d'un emploi autonom 
dans le questionnaire du recensement, on établi 
que les rémunérations ont été remplacées par U 
revenu agricole et un revenu non agricole tir 
d'un travail autonome, ce qui équivaut a dew 
substitutions, 148 ot il n'y avait peut-étr 
qu'une substitution et une omission. Toutefois 
il est peu probable qu'une telle situation ‘Ss 
produise. On observe en effet que le revenu no 
agricole tiré d'un travail autonome ne constitu! 
la deuxiéme source de revenu des personnes don 
la principale source de revenu est le rever 
agricole net que dans 2.5% des cas (22/870). Pa 
ailleurs, seulement 4.2% des répondants dont | 


clusive evidence, they are sufficient to 
leviate any fears that the data in support 
the substitution hypothesis are heavily 
licted with double counting. 


Table 16 summarizes the incidence of net 
ome from farming, non-farm income from 
f-employment, and wages reported in one 
rece without its equivalent counterpart in 

other source, but with another employ- 
t-income component in the _ secondary 
ree reported exclusively therein. The 
er left three-by-three sections of Table 
serves to illustrate this situation. The 
er right and lower left three-by-three 
etions contain supplementary information 
help to convey a sense of proportion 
h respect to the incidence of substi- 
ion. 


To assist in reading the table, a few of 

depicted relationships will be spelled 
e There are 54 records with non-farm 
f-employment reported exclusively to RC-T 

showing farm net income on their census 
urn. There are 56 records with wages and 
aries on their tax return, but their 
asus return shows farm net income as a 
agle-source item. It is assumed in each 
Beance that RC-T information is correct 

Census information is incorrect. This 
umption is based on recall phenomena 
ch are sound for RC-T reporting because 
umentary evidence is required. There is 
o the provision of sanctions which is apt 
reduce reporting errors on tax returns. 
versely, recall on Census questionnaires 
relatively poor because documentary evi- 
ce is not required, sanctions are non- 
stent, and the elapsed time since the 
‘ning took place is greater than for RC-T 
»orting. 


The supplementary information shows that 
1 Census questionnaires with farm income 
{| non-farm self-employment income on the 
isus questionnaire and on the RC-T file, 
ireby prohibiting a substitution of farm 
ome for non-farm self-employment income. 
ernatively, they could also have had zero 
ries for non-farm self-employment income 
both sources. This type of occurrence 
mits the same inference of non-substi- 


ion. 
A similar situation is depicted in the 
fer-left quadrant where 294 RC-T farm 


ome records show non-farm self-employment 
Occur either in both sources or not at 


oy 


principale source de 
agricole tiré d'un 
tirent également un revenu de 
cole. Bien que ces chiffres 
pas de tirer des conclusions définitives, ils 
lévent néanmoins les doutes selon lesquels les 
données qui appuient L'hypoth@se de substitution 
risquent de faire l'objet de doubles comptes. 


revenu est un 
travail autonome 


revenu non 
(69/1,657) 
L'activité agri- 
ne nous permettent 


Le tableau 16 présente de facon sommaire les 
caS ou un revenu agricole net, un revenu non 
agricole tiré d'un travail autonome et des rému- 
nérations ont 6té déclarés dans une source, sans 
que leur contrepartie figure dans l'autre source, 
mais oi un autre revenu d'un emploi est donné 
uniquement dans la deuxiéme source. Le cadre 
supérieur gauche du tableau 16 illustre bien la 


Situation. Le cadre supérieur droit et le cadre 
inférieur gauche du tableau contiennent des 
renseignements supplémentaires qui mettent dans 
une meilleure perspective la question de la 


fréquence des substitutions. 


Pour faciliter la lecture du tableau, nous 
décrirons certains des rapports qui y sont mis en 
€évidence. Il y a 54 dossiers dans lesquels le 
répondant a déclaré un revenu non agricole tiré 
d'un travail autonome a RC-I, mais un revenu 
agricole net au recensement. Par ailleurs, on 
observe que 56 répondants ont déclaré 4a 1l'impét 
qu'ils touchaient une rémunération, alors que 
dans leur questionnaire de recensement, ils ont 
indiqué que le revenu agricole constituait leur 
seule source de revenu. Dans chaque cas, nous 
avons posé que les renseignements de RC-I étaient 
exacts et que ceux du recensement étaient erro- 
nés. Cette décision s'appuie sur le fait que les 
contribuables doivent ajouter a leur déclaration 
un certain nombre de piéces justificatives. De 
plus, le fisce a prévu des peines qui sont suscep- 
tibles de réduire le taux d'erreur. En revanche, 
dans une enquéte mémoire comme le recensement, on 
n'exige pas de piéces justificatives, il n'y a 
pas de peine prévue et il s'est Gcoulé plus de 
temps entre le moment ou le revenu a 6té gagné et 
le jour du recensement qu'entre la méme &6poque et 
la période ot le contribuable a produit sa 
déclaration d'impét. 

Les renseignements supplémentaires montrent 
que les 235 répondants au recensement qui ont 
déclaré un revenu agricole avaient également 
déclaré au recensement et a l'imp6ét un revenu non 
agricole tiré d'un travail autonome; il ne pou- 
vait donc pas y avoir substitution dans ces Cas. 
Par ailleurs, si les répondants avaient indiqué 
dans les deux sources qu'ils n'avaient pas tiré 
d'un travail autonome un revenu non agricole, on 
aurait pu en tirer les mémes conclusions. 


La situation est la méme dans le cadre infé- 
rieur gauche; si l'on prend par exemple les 294 
dossiers dans lesquels un revenu agricole a écé 
déclaré a l'imp6t et qu'on constate qu'un revenu 


all, thereby precluding an assumption of 
component substitution. The remaining data 
in Table 16 should be interpreted in a sim- 
ilar fashion. 


Returning to the “presumption of inno- 
cance’ for RC=T records; d.¢., they. are 
assumed to be free from fault until proven 
otherwise, one can translate the entries in 
the upper left quadrant of Table 16 into 
corrections which could be applied to the 
Census. The 54 and 56 records in the first 
row of Table 16 would be applied as a nega- 
tive correction to Census farm income. 
Although shown as farm income on the Census, 


their true component membership is deter- 
mined ‘by “RC-T information, “and “its places 
them outside the farm universe. The same 
records would also constitute a positive 
correction to Census non-farm self-employ- 
ment income (54), and to Census wages and 


salaries (56). Census failed to show entries 
for these cells, but RC-T data indicate that 


these income components should have _ been 
assigned accordingly. 

Negative and positive corrections must 
balance for the complete data set. Thus, 


Census farm income should have been added to 
83 records as the net result of this pro- 
cess. Census non-farm self-employment income 
should also have been assigned to an addi- 
tional 89 records, whereas Census wages 
should have been removed in 172 instances. 


While the net effect is largest for wage 
earners, it is based on offsetting negative 
and positive corrections of 661 and 489 
records. Non-farm self-employment income, on 
the other hand, would face corrections of a 
similar magnitude, namely 538 negative and 
627 positive ones, but the net effect is 
reduced to 89 cases. For farm income, the 
net effect dis similar to that of non-farm 
self-employment income, but it is based on 
the smallest set of corrections juxtaposing 
110 and 193 records for a net effect of 83. 


The foregoing examples were presented in 
order to illustrate that net effects are not 
always indicative of reporting qualities. 
Normally, only these net effects can be 
observed. It is the increased power of 
observation attributed to a linked data set 
which permits a closer assessement of these 
reporting phenomena. 


For investment income, a different form 
of substitution has been hypothesized, 
namely reporting investment income under the 
husband's name in one source, and under the 
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non agricole tiré d'un travail autonome est 
simultanément présent ou absent dans les deu 
sources, on peut en déduire qu'il n'y a pas 
substitution d'éléments. Les autres données 
tableau 16 peuvent 6étre interprétées 
maniére analogue. 


Revenons a la présomption de qualité des 
dossiers de RC-I. Si l'on suppose qu'ils sont 
exacts tant que le contraire n'a pas été prouvé, 
en déduire que les chiffres du cadre 
supérieur gauche du tableau 16 correspondent 3 
des corrections qui pourraient étre appliquéesg 
aux résultats du recensement. Ainsi, les 54 et 5f 
dossiers de la premiére ligne du tableau pour- 


on peut 


apportées| “aux ichiliires Sdugenecensementasuim 
revenu agricole. Bien qu'on les assimile a 
recensement 4 un revenu agricole, leur apparte 
nance réelle est fixée en fonction des chiffres 
de RC-I, ce qui les sort de l'univers agricole. 
Ces dossiers pourraient également prendre 
forme d'une correction positive apportée 
revenu non agricole tiré d'un travail autonom 
(54) et aux rémunérations (56). Au recensement, 
il n'y a pas de chiffre dans ‘ces ‘cases; jim 
données de RC-I nous apprennent néanmoins : 
contraire. 


si 
U 


Au total, les corrections négatives et positi 
ves doivent s'équilibrer. Ainsi, 83 dossiem 
viendraient s'ajouter 4 ceux du revenu agrico 
au recensement et 89, au revenu non agricole tiré 
d'un travail autonome du recensement; en revan- 
che, 172 dossiers devraient @étre enlevés des 
rémunérations. ’ 


Bien que l'effet net de cette opération touche 
davantage les personnes qui gagnent un revenu 


Ves ec 3 
siers. Le revenu non agricole tiré d'un travail 
autonome, pour sa part, ferait l'objet d'@ 
nombre sensiblement égal de corrections (538 
négatives et 627 positives), le nombre net d 
dossiers diminuant de 89. Pour ce qui est 
revenu agricole, enfin, 

tion serait voisin, car 
siers; toutefois, il reposerait uniquement sur 
LLO et, 93. corrections: 


le fait que les effets nets de telles opérations, 
ne nous renseignent pas toujours bien sur la 
qualité des déclarations. Habituellement, seuls 
ces effets nets peuvent s'observer. Seul 
couplage des données nous permet d'étudier 


plus prés ces phénoménes. 


En ce qui concerne les revenus de placements, 
on a supposé qu'il pouvait y avoir deux types d 
substitution: la déclaration des revenus de plaz, 
cements au nom d'un conjoint dans une source 


ife's name in the other source. This sort 
f shifting may apply particularly to inter- 
st from joint savings accounts and _ bond 
terest. The shifting of bond interest 
ould occur if the security was bought by 
me spouse in the other spouse's name. 
though the RC-T treatment is clear, namely 
he interest should be reported by the pur- 
haser (donor) of the bond, and not the 
egistered owner, Census reporting may not 
ollow these lines. 


There is insufficient evidence to support 
is hypothesis. Only 89 records’ show 
mvestment income reported to RC-T by hus- 
ands but not by their respective spouses, 
et reported under the wife's name to the 
ensus without any of it reported under the 
sband's name. There are also 174 records 
th the reverse reporting relationship. The 
et gain for Census wives thus is 85 with a 
orresponding net loss to the _ husband's 
olumn. However, these numbers are extracted 
om about 4,000 couples with at least one 
f the marriage partners reporting invest- 
ent income. The net effect therefore 
onstitutes about 2% of the total number of 
ecords under consideration. While invest- 
ent income is afflicted with omissions in 
oth files, as can be seen from Table 9, it 
eems to be relatively free from substitu- 
ion among marriage partners. Partial sub- 
titution of investment components, however, 
ay occur, but this phenomenon cannot be 
easured with the data at hand. 


The substitution of income components and 
ther reporting errors may affect aggregate 
Mcome and income distributions dispropor- 
ionately. To gain some insight into the 
come effect, matched records will now be 
iscussed with reference to “square 
ables". In these tables, class membership 
rom one source is cross-classified with 
lass membership from the other source. If 
11 income recipients had reported their 
mcome identically to Census and to Revenue 
anada, all entries would be located along 
he main diagonal of such a table. 


The choice of class limits could shift 
arginal records by one income class. Thus, 
greement between sources is usually judged 
m terms of records on or immediately adja— 
ent to the main diagonal. 


Class size, of course, will influence the 
it. If, for example, a distribution were to 
@ restricted to three income classes, all 
ndividuals would fall on or immediately 
djacent to the main diagonal. Conversely, 
n “infinitely” large number of income clas- 
es would leave very few records within the 
esignated limits of “good fit". 


«dS = 


au nom de l'autre conjoint dans la deuxiéme 
source. Cette situation se produit probablement 
le plus souvent dans le cas des intéréts des 
comptes d'épargne conjoints et des intéréts 
d'obligations, particuli@rement si les obliga- 
tions ont été achetées par un conjoint au nom de 
l'autre. Bien que le traitement retenu par RC-I 
soit clair - les intéréts doivent @tre déclarés 
par l'acheteur (le donateur) et non par le pro- 
priétaire enregistré - les répondants au recense- 
ment ne procédent peut-étre pas de cette facon. 


Les preuves pour appuyer cette hypothése man- 
quent. En effet, il n'y a que 89 dossiers ot des 
revenus de placements ont été déclarés Aa RC-I par 
des 6poux, mais non par leur épouse, alors qu'ils 
ont @été uniquement déclarés au nom de l'épouse au 
recensement. Par ailleurs, 1a situation inverse 
s'observe dans 174 dossiers. Les épouses réali- 
sent donc un gain net au recensement de 85; il y 
a &évidemment une perte correspondante pour les 
époux. Il convient néanmoins de souligner que ces 
chiffres sont tirés de données sur prés de 4,000 
couples dont au moins un des conjoints a déclaré 
des revenus de placements. L'effet net s'établit 
donc a environ 2% des dossiers étudiés. Bien que 
les revenus de placements fassent l'objet d'omis- 
sions dans les deux fichiers (cf., tableau 9), 
les cas de substitution entre conjoints semblent 
relativement peu fréquents. Les cas de substitu- 
tion partielle qui auraient pu se produire n'ont 
pas pu 6tre mesurés faute de données. 


La substitution des @léments du revenu et les 
autres erreurs de déclaration ne touchent pas 
nécessairement de la méme fagon le revenu global 
et les répartitions du revenu. Pour avoir une 
certaine ouverture sur l'effet du revenu, nous 
étudierons les dossiers appariés a4 l'aide de 
tableaux carrés. Dans ces tableaux, 1l'apparte- 
nance d'une source a une classe donnée est étu- 
diée en fonction de l'appartenance d'une autre 
source a la méme classe. Ainsi, si toutes les 
personnes qui avaient touché un revenu l'avaient 
déclaré de la méme fagon au recensement et 4 
Revenu Canada, les données se situeraient toutes 
dans la diagonale principale de ce tableau. 


Comme le choix des limites des classes pour- 
rait faire passer certains dossiers marginaux 
d'une classe a une autre, on a posé qu'il y avait 
concordance quand un dossier se situait sur la 
diagonale principale ou immédiatement a cété. 


La qualité de l'ajustement dépend évidemment 
de la taille des classes. Si, par exemple, on 
limitait la répartition a trois classes’ de 
revenu, toutes les personnes observées tombe- 
raient sur la diagonale principale ou dans un 
secteur adjacent. A L'inverse, l'utilisation d'un 
trés grand nombre de classes de revenu ne laisse- 
rait que quelques dossiers dans les limites des 
“bons” ajustements. 


Initially, a square table with 38 income 
classes was produced, and “total income” as 
well as “wages and salaries” were cross~ 
tabulated therein. The universe was restric~— 
ted to “true matches". Total income, made 
conceptually compatible for both sources, 
showed 75.6% of all respondents within one 
class interval of the main diagonal and for 
wages the result was 77.9%. 


There is no precise measure which states 
that a given percentage is “good” or “bad”. 
However, some empirical evidence showed what 
might be “attainable”. The United States 
Department of Health, Education and Welfare 
(HEW) had published square tables on wages, 
where matched records within one _ class 
interval of the main diagonal showed 85.44 
agreement.(15) However, the United States 
study was based on 18 classes rather than 
38, as was the case for our data. 


When our results for wages were retabu- 
lated using the same 18 class intervals that 
had been used by HEW, our fit improved from 
77.9% to 85.0%. The percentage on the main 


diagonal proper was 6/.1%, which was a 
slight improvement over the United States 
results, where the main diagonal proper 


contained 65.2% of all records. 


The foregoing discussion of square tables 
is summarized in Table 18. Additional income 
components are also shown therein and the 
mediocre reporting quality discussed for 
those components earlier is supported by 
“square table” presentation. 


The discussion of matching results will 
now return to the non-matched records. 


Non-matched Records from the 1971 Census 


Non-matches were briefly juxtaposed with 
matches in the introductory section to match 
results. It was stated that the non-match 
set consisted of 33,516 original non-matches 
and 1,779 "converted" non-matches for a 
tobkalvoft 354295. 


It was also stated that a non-match deci- 
sion could be a correct decision (true non- 
match), namely when the Census record to be 
matched belongs to a person who is not an 
income recipient, or whose income is rela- 
tively small, and based on sources which 
reduce the likelihood of filing a tax re- 
turn. It was stated without further support 
that 4,084 non-matches were false  non- 
matches (see also Table 8) whereas S211: 
records must be considered true non-matches 
(see also Table 7). 


See footnote(s) at end of text. 
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A l'torigine, nous avons produit un tableat 
carré qui comportait 38 classes de revenu et nous 
y avons porté le revenu total ainsi que les rému 
nérations. L'univers était limité aux apparie 
ments justes. En ce qui concerne le revenu total 
— qui avait au préalable été rendu conceptuelle 
ment compatible pour les deux sources - 75.6% de 


répondants se trouvaient A une classe d'inter 


valle de la diagonale principale; dans le cas des 
rémunérations, la proportion correspondante étail 


de 729%. A 
ty 


Il n'existe pas de mesure précise qui no 
permette de dire si um pourcentage donné es} 
“bon” ou “mauvais". Toutefois, certains résulta 
empiriques nous renseignent sur les résulats u 
pourraient étre atteints. Ainsi, le ministér 
américain de la Santé, de 1'fducation et ‘ 
Bien-étre a publié des tableaux carrés sur le: 
rémunérations dans lesquels 85.4% des dossier; 
appariés tombaient 4 une classe d'intervalle pré 
de la diagonale principale (15). L'étude améri 
caine reposait néanmoins sur 18 classes, et no 
sur 38. ‘" 

Aprés que nous ayons eu présenté nos résultat 
sur les rémunérations en fonction des 18 classe 
utilisées dans l'étude américaine, l'ajustemen 
est passé de 77.9% a 85.0%. 67.1% des dossiers § 
trouvaient sur la diagonale principale, ce qu 
est légérement mieux que dans l'étude américain 
(65.224). . 


Ces résultats sont présentés de fagon sommair 
au tableau 18. Le tableau contient également de 
chiffres sur d'autres éléments du _ revenu; 1 
piétre qualité de déclaration relative 4 ces é1é 
ments est d'ailleurs bien mise en évidence par 1 
présentation du tableau. 


Nous reviendrons maintenant aux résultats ¢ 
l'appariement des dossiers non appariés. 


Dossiers non appariés du recensement de 1971 


Nous avons briévement comparé les non-apparié¢ 
ments aux appariements dans 1l'introduction de - 
section des résultats de 1'appariement. Nov 
avons notamment vu que les 35,295 non-apparié 
ments comprenaient 33,516 non-appariements d'or: 
gine et 1,/7/9 appariements rejetés. 


Nous avons également vu que les décisions | 
non-appariement pouvaient @6tre justes quand | 
dossier du recensement appartenait a une person 
qui n'avait pas eu de revenu ou dont le reve 
était relativement peu élevé et provenait prob. 


blement de sources moins susceptibles de fai 
l'objet d'une déclaration d'impdt. Nous avo 
également affirmé que 4,084 non-appariemen 


étaient des non-appariements erronés (voir égal 
ment le tableau 8), alors que 31,211 dossim 
devaient €6tre assimilés 4 des non-appariemen 
justes (tableau 7). ¥ 


Voir note(s) a la fin du texte. 


‘The majority of true non-matches, namely 
»939 have no income subject to taxation 
sported on their Census questionnaire; 
e., income which could be taxed if suffi- 
pent amounts had been received. A person 
th such a record could have received 
mily allowances, veterans’ pensions, or 
rkmen's compensation, for example, which 
a not subject to taxation in 19/70. 


The “converted” non-matches were origi- 
mly classified as "false matches"; i.e., 
e given Census record had been matched 
roneously with a tax record of similar 
aracteristics. It was then decided during 
post-match edit that these records consti- 
ted an invalid combination, and that the 
tch should be disbanded by having the 
msus record revert to its original form 
d become part of the non-match set. 


Given that it was retained as a non- 
tch, the truthfulness of this decision can 
| questioned. Out of 1,779 “converted” 
n-matches (formerly false matches), 817 
re judged false again, whereas 962 were 


assified as true non-matches. In other 
rds, the decision to convert "false 
tches" into ‘“non-matches" resulted in 


-1%Z of these records to have their match 
atus classified correctly, whereas 45.9% 
mained problem cases. 


pit should be recalled that the classifi- 
tion of non-matches as “true” or “false” 
based on the degree of likelihood with 
ich an individual represented by such a 
f@erd can be expected to file a tax 
turn. It must be assumed that the Census 
formation is correct, for this information 
ts the basis for judging the propensity 
Mmeile a tax return. 


One should also remember that Census 
formation is subject to omissions and sub- 
itutions. Consequently, non-matched Census 
Rerds can also be expected to contain 
stitutions and omissions. Such omissions, 
_ rectified, would increase the number of 
"se non-matches so classified, whereas the 
Neral tendency to overreport income on the 
sus would overstate the number of false 
ches initially. Consequently, judging the 
tthfulness of non-match decisions on the 
iis of income reported to the Census will 
jult in minor distortions with little net 
ect. 


The propensity to file a tax return is 
ged against general taxfiling criteria, 
‘en the size of income, the dependency 
tus, the income of dependents, and age, 
ch may entitle the recipient to an age 
mption. Allowance cannot be made for spe- 
1 deductions due to pension plan contri- 
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La majorité des non-appariements justes 
(19,939) n'ont aucun revenu soumis 4 l'impét dans 
le questionnaire du recensement (il s'agit ici de 
revenus qui auraient pu étre imposés_ s'ils 
avaient été suffisamment élevés). Ces personnes 
peuvent voir recu des allocations familiales, une 
pension d'ancien combattant ou des indemnités 
pour accident du travail qui n'étaient pas soumi- 
ses 4 L'imp6t en 1970. 


Les non-appariements ‘“modifiés" étaient 4a 
l'origine rangés dans les “appariements erronés"; 
on supposait qu'un dossier du recensement avait 
été apparié par erreur a4 une déclaration d'impét 
qui avait des caractéristiques voisines. On a 
ensuite décidé pendant le contréle qui a suivi 
l'appariement que ces dossiers formaient une 
combinaison invalide, que l'appariement devait 
étre annulé et que le dossier du recensement 
devait revenir a son point d'origine et étre 
réintégré 4 l'ensemble des dossiers non appariés. 


Compte tenu du fait qu'on posait alors qu'il y 
avait non-appariement, la justesse de cette 
décision peut 6tre mise en doute. Des 1,779 non- 
appariements modifiés (appariements qualifiés 
auparavant d'erronés), 81/7 ont été jugés inexacts 
et 962 ont @té rangés dans la catégorie des non- 
appariements justes. En d'autres termes, suite 
a la décision de modifier les appariements 
erronés en non-appariements, 54.1% des dossiers 
visés ont recgu un bon statut d'appariement, alors 
que 45.9% faisaient toujours probléme. 


Il convient de rappeler que le classement des 
non-appariements en non-appariements justes ou 
erronés est fondé sur la _ probabilité selon 
laquelle la personne représentée par un dossier a 
des chances d'avoir produit une déclaration d'im- 
pot. Il faut donc supposer que les données du 
recensement sont exactes, car c'est sur elles 
qu'on s'appuie pour déterminer la tendance a pro- 
duire une déclaration d'impét. 


Il faut également se rappeler que les données 
du recensement font l'objet d'omissions et de 
substitutions. Les dossiers non appariés ne font 
pas exception. Si ces omissions étaient corri- 
gées, on accroitrait le nombre des non-apparie- 
ments erronés, et la tendance générale a4 déclarer 
au recensement des revenus trop élevés provoque- 
rait une surévaluation du nombre des appariements 
erronés. Il en résulte donc que la détermination 
de la qualité des décisions relatives aux non- 
appariements en fonction du revenu déclaré au 
recensement ne donne lieu qu'a de légéres distor- 
sions sans effet net marqué. 


La tendance a produire une déclaration d'impét 
est jugée en fonction des critéres généraux de 
production d'une déclaration, de la taille du 
revenu, du statut de personne a4 charge, du revenu 
des personnes a charge et de l1'age (qui peut 
donner droit 4 une exemption en raison d'age). IL 
n'est pas possible de tenir compte des déductions 


butions, medical deductions, or alimony 
paid. The likelihood of filing a tax return 
is further modified by institutional con- 
straints due to provisions for withholding 
taxes on wages. Thus, ceteris paribus wages, 
or an appreciable wage component, may 
increase the likelihood of a non-match being 
false. 


The impact of components on the classifi- 


cation of non-matches was derived from 
major-source-of-income determination. Dif- 
ferentiating features were wages versus 


self-employment income, and non-employment 


income. 


True and false non-matches will now be 
discussed in terms of their characteris-— 
tics. The true non-matches are of relatively 
little interest, except that they constitute 
a subset which will always leave a data 
gap. By definition,a true non-match does not 
lend itself to any remedial action which 
would result in the missing information 
being added. A false non-match, on the other 
hand, may be subject to remedial action. It 
could consist of improved data collection, 
revised matching methods, or amelioration 
with the help of synthetic linkage. 


Whenever the decision to declare a non- 
match happens to be a false one, the follow- 
ing questions should be asked: are these 
non-matches false because their tax records 
cannot be found although they exist?, or are 
they false because the tax records do not 
exist, although tax returns should have been 
filed? 


The income data associated with non- 
matches can be summarized as follows: Out of 
31,211 true non-matches, 19,939 (63.9%) have 
no income subject to taxation, whereas 
11,272 (36.1%) have some income, but the 
corresponding recipient must be considered 
non-taxable. Considering the subset’ of 
11,272 non-matches with some income subject 
to taxation, 96.5% (10,878 records) have 
reported income under $2,500, and 5,929 of 
these have reported income under $1,000. 


False non-matches have no members at the 

end of the income distribution. The 
distributional impact in terms of membership 
and income can be gleaned from Table 19, 
where the potential universe consists of all 
matches and non-matches. The  non-match 
effect is broken down for true and false 
categories. 


low 


While a 19.0% shortfall in membership 
results in a 4.0% shortage of income for the 
universe due to true non-matches, the effect 
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de tenir compte des déductions spéciales telles 
que les contributions 4 un régime de retraite le 
déductions pour frais médicaux ou les pension: 
alimentaires versées. La tendance a produire un 
déclaration d'impdt est également liée aux com 
traintes administratives suscitées par e 
retenues d'impé6t a4 la source. Ainsi, toute 
choses @tant égales par ailleurs, les rémunéra 
tions — ou un élément “rémunérations" important - 
peuvent accroftre le risque qu'un non-appariemen’ 
soit erroné. 


L'incidence des éléments du revenu sur 
classement des non-appariements a été évaluée ¢ 
fonction de la principale source de revenu. IL 
principaux facteurs de différenciation étalll 
les rémunérations versus le revenu d'un trav 
autonome et le revenu hors-travail. 


b 


Nous @étudierons maintenant les caractéristi 
ques des non-appariements justes et erronés. Le 
non-appariements justes offrent relativement pe 
d'intérét, si l'on excepte le fait qu'ils formen 
un sous-groupe auquel correspondra toujours un 
absence de données. Par définition, l'appariemen 
juste ne se préte a aucune mesure corrective qu 
consisterait 4 ajouter les données manquantes. | 
l'inverse, le non-appariement erroné peut fair 
l'objet de corrections: collecte de meilleure 
données, transformation des méthodes d'apparie 
ment, amélioration de l'appariement par le biai 
du couplage synthétique. | 


a 
he 


Si l'on déclare qu'il n'y a pas eu appariemer 
et que l'on apprend par la suite que cette déci 
sion était erronée, on devrait se poser les ques 
tions suivantes: le non-appariement est-il error 
parce qu'il est impossible de trouver la déclaré 
tion d'impdt correspondante méme si elle existe 
le non-appariement est-il erroné parce que | 
déclaration d'imp6t n'existe pas en dépit du fa: 
qu'elle aurait di @tre produite? | 

Les données sur le revenu associées ai 
non-appariements se présentent en gros com 
suit. Des 31,211 non-appariements justes, 19,9 
(63.9%) n'avaient aucun revenus soumis a4 1'impi 
et 11,272 (36.1%) avaient un certain revenu, ma 
la personne qui Il'avait touché n'était p 
assujettie A l'impé6t. Si l'on considére c 
non-appariements, on observe que 96.) 


272. 
(10,878 dossiers) des répondants ont rapporté 

revenu inférieur a $2,500 et que 5,929 d'ent 
eux ont déclaré un revenu inférieur a $1,000. 


Les non-appariements erronés ne  comprenne 
aucun dossier au bas de l'échelle des revenuse 
tableau 19 présente A cet égard une répartiti 
par tranche de revenu et statut d'apparieme 
dans laquelle l'univers potentiel est composé 
l'ensemble des dossiers appariés et non app 
riés. Les dossiers non appariés sont ventilés 
deux catégories, justes et erronés. 


En ce qui concerne les non-appariemer 
justes, on observe qu'un manque de 19.0% dans 
nombre des dossiers entrafne un déficit de 4:| 


me Roh as! G3SVSH efor the “Sl © to. “S500 
come class and the income shortfall within 
ms Class is 58.6%. Up to $1,500, all clas- 
s are reduced to less than one half. In 
her words, the matched set, due to Revenue 
Mada coverage limitations, only accounts 
r every second person at the low end of 
e distribution, although the aggregate 
come effect at 4.0% is hardly noticeable. 


False non-matches are more difficult to 
sess since the non-match decision is not 
cessarily caused by absence of the record 

the tax universe. Our inability to link 
ese records affects 6.9% of all potential 
come recipients, but it produces an income 
tortfall of 9.1%. The effect on individual 
come classes is fairly uniform. Membership 

affected by less than 10.0% in most 
ses, and the income effect usually corre- 
onds closely to the membership effect for 
ch class interval. 


The impact of true non-matches on statis-— 
cal output is more damaging than that of 
ise non-matches, since the resulting defi- 
ency cannot be remedied. The high concen- 
ation of true non-matches in the lower 
come classes distorts relative income 
‘ares disproportionately. Non-matching due 
non-filing or unidentifiable data, as 
mifested by false non-matches, is distrib- 
ed more uniformly between income classes. 
msequent ly, adjustments can be made on the 
isis of the known distribution by propor- 
onately adjusting the income series. 


| 


/Out of 4,084 false non-matches, 3,637 
9.1%) have wages and salaries as their 
jor source of income. Since income tax was 
'thheld at the source, it is conceivable 
at the recipient did not file a tax return 
cause a tax liability was not perceived. 


pat must be stressed, however, that addi- 
jonal tax liabilities due to secondary 
come sources did arise in many instances. 
ere are 3,637 non-matched wage earners who 
‘so have income from non-farm self-employ- 
fat in 115 instances, from farming in 43 
ses, from old-age security in 191 cases, 
i from pensions on 54 occasions. Invest- 
at income is present for 4/70 of these 
jor wage earners and other income subject 


taxation was reported in 69 instances. 
942 cells showing secondary income 
ifces are not mutually exclusive and do 
‘= indicate how many of the 3,637 wage 


—— 
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au niveau du revenu de l'univers; l'effet atteint 
un sommet de 63.3% dans la classe de revenu de $1 
a $500, le déficit correspondant étant de 58.6%. 
Jusqu'a $1,500, toutes les classes sont réduites 
a moins de la moitié. En d'autres termes, bien 
que l'ensemble des dossiers appariés ne. couvre 
qu'une personne sur deux au bas de 1l'échelle des 
revenus (la situation est imputable aux limites 
du taux de couverture de Revenu Canada), le 
revenu global n'en  souffre pratiquement' pas 
C4 5029% 


Il est plus difficile d'évaluer les non-appa-— 
riements erronés, car la décision sur laquelle 
ils reposent n'est pas nécessairement fondée sur 
l'absence des dossiers de l'univers de l'impét. 
L'impossibilité de lier ces dossiers touche 6.9% 
des personnes observées, mais entraine une diffé- 
rence en moins de 9.1%. L'effet sur chacune des 
classes de revenu est relativement uniforme. Dans 
la plupart des cas, la différence en moins en ce 
qui concerne les dossiers est inférieure 4 10.0%; 
les effets observés sur le revenu suivent d'assez 
prés. 


L'incidence des non-appariements justes sur 
les résultats statistiques est plus préjudiciable 
que celle des non-appariements erronés, car la 
différence en moins qui en résulte ne peut pas 
étre corrigée. La forte concentration des non- 
appariements justes dans les classes de revenu 
inférieures déforme inégalement les parts relati- 
ves occupées par le revenu. Les non-appariements 
attribuables 4 la non-production d'une déclara- 
tiouw “oul a? jie impossibilite 9 d'identtiier “des 
données (non-appariements erronés) sont répartis 
plus @galement. On peut donc ajuster proportion- 
nellement les séries sur le revenu en s'appuyant 
sur les répartitions connues. 


Des 4,084 non-appariements erronés, 3,637 
(89.1%) correspondaient a des dossiers dans les- 
quels les rémumérations constituaient la princi- 
pale source de revenu. Comme lL'impét sur le 
revenu a été prélevé a4 la source, il est possible 
que certains salariés n'aient pas produit leur 
déclaration parce qu'ils ne se sentaient plus 
assujettis a l'impét. 


Toutefois, il convient de souligner que, dans 
bon nombre de cas, les répondants tiraient des 
revenus secondaires d'autres sources. Ainsi, des 
3,637 salariés non appariés, 115 tiraient égale- 
ment un revenu d'un travail autonome non agri- 
cole, 43, de l'agriculture, 191, de prestations 
de sécurité de la vieillesse et 54, de pensions. 
De plus 470 de ces salariés avaient eu des 
revenus de placements et 69, d'autres revenus 
soumis a l'impét. Les 942 cas ou il y a eu reve- 
nus secondaires ne s'excluent pas mutuellement; 
il n'est donc pas possible de savoir combien de 
salariés sur les 3,637 avaient des revenus secon- 
daires. Au mieux, ce chiffre constitue une limite 


earners have secondary sources. At best, it 
is an upper limit. In other words, not more 
than 25% of these wage earners would have 
incurred additional tax liabilities after 
withholding taxes. 


There are also 447 false non-matches with 
major income sources not subject to with- 
holding tax; €sgs, 235 have non-farm» seli- 
employment as a major source, 111 derive the 
largest income share from farming, 61 from 
pensions and old-age security, and _ the 
remaining 40 records have no unique major 
source; i.e., two or more income sources are 
of the same magnitude, or the income compon- 
ents fall into "miscellaneous" categories. 


The size classes of “income subject to 
taxation” for false non-matches with wages 
as a major source are under $2,000 in 269 
cases, fall between $2,001 and $5,000 in 
1,470 cases, and are greater than $5,000 in 
1,898 instances. 


The income class membership of major 
source records not subject to withholding 
taxes falls into the range $1,000 to $2,000 
for 30 records, into the range $2,001 to 
$5,000 for 242 records, and above $5,000 for 
175 records. 


The foregoing discussion of non-matches 
concludes the technical part of this re- 
port. A few points are worth repeating. 
These points concern data quality in ‘the 
context of record linkage. It also seems 
appropriate to reiterate notions surrounding 
record linkage as a useful tool in the stat- 
istician's workshop. The following section 
will be devoted to these subjects. 


Postscript 


The desirability of employing up-to-date 
technology for the improvement and produc- 
tion of statistical output seems to require 
little justification. °Up till now, techno- 
logical advance has helped to increase 
productivity by providing the same output at 
reduced per-unit costs, or even more out put 
at reduced cost. Often, new technology 
helped to improve timeliness. Data quality 
was controlled by way of sampling design, 
collection procedures, consistency checks, 
as well as edits and imputations. This 
approach is still valid and cost-effective 


for large aggregates where random shocks 
will cancel out; it is also acceptable, with 
reservations, for most cross-section and 


time series data. However, 
has brought the advent 
micro data sets, 
Leconds, land 


where technology 
of machine-readable 
consisting of individual 
where present-day technology 
has poericd the means of producing longitu- 
dinally linked records, conventional stan- 
dards of data quality should be challenged. 
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maximale. En d'autres termes, il n'est pas possi- 
ble que plus de 25% de ces salariés aient touché 
des revenus additionnels en sus de ceux qui ont 
fait l'objet d'une retenue 4 la source. 


On dénombre également 447 non-appariements 
erronés dans lesquels la principale source de 
revenue n'a pas fait lL'objet d'une retenue d'im 
pot a la source: 235 des répondants ont tiré lew 
principale source de revenue d'un _ travail 
autonome non agricole, lll, de l'agriculture et 
61, de pensions et de prestations de sécurité de 
la vieillesse; dans les 40 dossiers restants, i 
n'y avait pas de principale source de revem 


unique (sources de revenu sensiblement égales, 
éléments du revenu tombant “dans la catégori¢ 
Edivenoum)ys 

Les classes de taille du “revenu soumismz 


l'imp6t" des non-appariements erronés dans _ les- 
quels la rémunération constitue la _ principal 
source de revenu sont inférieures a $2,000 dan: 
269 cas, se situent entre $2,001 et $5,000 dan 
1,470 cas se sont supérieures 4 $5,000 dans 1,89 
cas. 


Le nombre des dossiers dans lesquels la prin 
cipale source de revenu n'a pas fait l'objet d 
retenues a4 ls source se situe 4 30 dans la classi 
$1,001-$2,000, 242 dans la classe $2,001-$5,Gm@ 
et 175 dans la classe de $5,000 et plus. | 


~ 


Cet examen des non-appariements met fin a lL 
partie technique de cette étude. Certains point’ 
méritent d'étre répétés. Ils concernent surtow 
la qualité des données dans le contexte du cou 
plage des dossiers. Il semble également intéres. 
sant de rappeler quelques faits au sujet de 
avantages statistiques du couplage des dos 
siers. C'est ce a quoi sera consacrée la sectio 
UIE SS WSs | 


Post-scriptum | 


La nécessité d'utiliser des techniques moder 
nes pour améliorer et produire des donnée 
statistiques n'a pratiquement pas a4 étre justi 
fiée. Jusqu'a ce jour, les progrés technique! 
nous ont permis d’accroitre notre productivité e 
produisant les mémes chiffres 4 un coat réduiti 
voire méme en produisant plus 4 un codt réduit 
Les techniques modernes nous ont souvent aidés 
améliorer l'actualité des données. La qualité de 
données a pu étre contrdlée par le truchement ¢ 
plan de sondage, des méthodes de collecte, de 
vérifications de compatibilité, des contréles ¢ 
des imputations. Cette approche demeure tou jour 
rentable dans les grands agrégats of les erreul 
aléatoires s'annulent; elle est également acce} 
table, sous certaines réserves, dans la_ plupa? 
des AO transversales et des séries chronol& 
giques. Toutefois, dans les secteurs ou |} 
technique a permis l'utilisation de micro-—donné¢ 
exploitables par une machine et la production | 
dossiers couplés longitudinalement, les  norme 
habituelles de qualité des données devraient ét) 
remises en question. 


Present-day trends may help to place 
reater emphasis on data quality. In every- 
y life, such notions as “small is better", 
quality of life", and a shift from consump- 
ion to conservation have inf luenced 
eople's actions. Similarly, in the public 
main, the need to conserve, to recycle, 
d to stress quality of service have occu- 
ed centre stage. Consequently, record 
nkage in conjunction with the exploitation 

administrative data, such as tax records, 
nforms to accepted notions of conservation 
d recycling; the expected or resulting 
provement in data quality will depend on 
e particular administrative files to be 
ed. 


To enhance the information value of 
ivers data sources without adding to 
esponse burden, record linkage can be an 

dispensible tool. Having accepted this 
emise, data quality of relatively small 
urce files can be improved in key areas, 
ad such improved quality would aid the 
inkage process as well as enhance the qual- 
ty and information value of the enlarged 
inked file. 


Record linkage, as described in the body 
f this report, can be employed as a substi- 
ate for conventional data collection, or it 
ay complement conventionally assembled data 
iles. It was shown in the post-match analy- 
is that substitution of tax data for Census 
ata would have left unacceptable gaps in 
ar statistical knowledge, although as com- 
lementary data, the information obtained 
tom record linkage was most useful. Looking 
future applications as data substitution 
a number of scenarios 


’ 
> complementation, 
in be anticipated. 
| . ; 

One possible scenario envisages greater 


se of administrative records for inter- 
msal years. Record linkage of such admin- 
itrative data with appropriate Census 


‘cords would establish bench marks for the 
ise year, and the relationships established 


1 this fashion could be used to make 
{justments to data derived solely from 
{ministrative sources for intercensal 
!ars . 


|The Census may not always lend itself to 
‘cord linkage applications, because it is 
| instrument designed to have the widest 
ssible application. Where a _ specialized 
‘Strument is needed, appropriately designed 
‘Tveys could form the foundation for a 
mked data base. Such a linked data base 
uld then be augmented with administrative 
ita for a number of years, thereby requir- 
g a survey less frequently than would be 
@ case under conventional operating proce- 
ites. 


Dik 


Les tendances actuelles font qu'on insiste 
davantage sur la qualité des données. Dans la vie 
de tous les jours, la recherche d'une société a 
la mestre de Iindividus? accent mis: sur la 
qualité de la vie et le passage de la consomma- 
tion a la conservation ont influencé nos 
actions. Parallélement, dans le domaine public, 
le besoin de conserver, de recycler et d'accrof- 
tre la qualité des services viennent au premier 
rang. En ce sens, le couplage des dossiers et 
l'exploitation des données administratives telles 
que les déclarations d'impét s'intégrent bien au 
concept de la conservation et du recyclage. L'op- 
timisation de la qualité des données qui en 
résulteront dépend néanmoins des fichiers admi- 
nistratifs utilisés. 


Le couplage des dossiers constitue un excel- 
lent moyen d'accroftre la valeur informative des 
diverses sources de données sans pour autant 
alourdir le fardeau des répondants. Cette pré- 
misse @6étant acceptée, il est possible d'améliorer 
la qualité de certaines données clés de fichiers 
de base relativement petits; cela facilitera le 
processus de couplage et accroftra la qualité et 
la valeur informative du fichier ainsi obtenu. 


Le couplage des dossiers décrit dans les pages 
qui précédent peut donc remplacer les méthodes 
habituelles de collecte des données ou compléter 
les fichiers constitués de la maniére habituel- 
le. Nous avons vu dans l'analyse post-appariement 
que la substitution des données fiscales a celles 
du recensement aurait laissé des lacunes inaccep- 
tables; en revanche, les renseignements obtenus 4 
la suite du couplage ont une utilité indéniable. 
Si l'on songe aux possibilités d'application du 
couplage des données, plusieurs scénarios s'of- 
frent a nous. 


= 


On pourrait d'une part songer a mettre davan- 
tage a profit les dossiers administratifs pendant 
les périodes intercensitaires. Le couplage de ces 
données et des dossiers du recensement nous per- 


mettrait d'établir des points repéres_ pour 
l'année de référence; les liens ainsi é&tablis 
pourraient a leur tour servir a ajuster les 
données intercensitaires tirées uniquement de 


dossiers administratifs. 


préte pas toujours 4a 
l'appariement des dossiers, car il a 6t&é congcu 
pour avoir le plus vaste champ d'application 
possible. Si l'on a besoin d'instruments spécia- 
lisés, on pourra alors constituer la base de 
données nécessaires au couplage par le _ biais 
d'enquétes spécialement congues. Cette base de 
données couplées pourra ensuite étre augmentée au 
moyen de dossiers administratifs pendant’ un 
certain nombre d'années, ce qui réduira la 
fréquence des enquétes. 


Le recensement ne se 


Toute activité de couplage doit étre limitée 
des @chantillons de la population. Le coat d 
couplages 4 grande échelle demeure en effet pr 


All linkage activities must be restricted 
to samples of the population. The cost of 


large-scale linkages is still prohibitive. A 
relatively small sample, made up of high- hibitif. Compte tenu de l'état actuel de 


quality data, and processed under stringent connaissances et de nos ressources financié 
quality control measures is most promising, on cherchera donc 4 s'appuyer sur les peti 
given the present state of the arts, and the échantillons constitués de données de grande qu 
desire to keep expenditure low. lité et dont l'exploitation devrait faire l'obj 
de mesures de contréle qualitatif trés sévére 
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selection of papers contains a vast 
number of bibliographical references to 
other United States Government publica- 
tions resulting from these linkage 
activities. 


A valuable summary, 
lished, can be expected under the 
authorship of Beth Kilss and F. 
Scheuren, Office of Research and Stat- 
istics, Social Security Administra- 
tion. They presented a _ preliminary 
yerpsionsot —alhe, 19/35 CPRS-ERS-SSA "Exact 
Match Study - Past, Present and Future” 
at the NBER Workshop on the Policy Uses 


but to-date unpub- 
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Marehe 15-1/7,.1978. 

J.M. Kennedy, H.B. Newcombe,’ E.A. 
Oktavakinw sand ep Mok ews Smith, o9 /Computer 


Methods for Family Linkage of Vital and 
Health Records”, Atomic Energy of 
Canada Limited, Chalk River, Ontario, 
April 1965. There are various articles 
in professional journals by Newcombe, 
Smith and Kennedy under single or joint 
authorship on various aspects of record 
linkage. Please refer to the 
Bibliography. 


I.P. Fellegi and A.B. Sunter, “A Theory 
for Record Linkage" in the Journal of 
the American Statistical Association, 


Wie lumoe 9969 senp sell s3—1210. 
While observed differences in income 
are interpreted as reporting errors, 


these differences may result from flaws 
in data capture and processing, or they 
may be the result of edits and imputa- 
tions on Census forms. It should also 
be noted that tax data used do not 
reflect late taxfilers, re-assessment, 
or supplementary corrections filed 
after the cut-off date of the file 
creation. 
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(2) 


(3) 


A) 


(5) 


(6) 


Benjamin Okner, "Constructing a New Data 
Base from Existing Micro-data Sets: the 1966 
Merge File”, Annals of Economics and. Social 
Measurement, juillet 1972. 


Horst Alter, “Creation of a Synthetic Data 
Set by Linking Records of the Canadian 
Survey of Consumer Finances with the Family 
Expenditure Survey 1970", Annals of Economic 
and Social Measurement, avril 1974. 


Ministére du Commerce des-Etats-Unis, Bureau 
du recensement, “Some Preliminary Results 
feomem thes sl9/3i RCPS -LRS-SSAs Exact eMaeen 
Study" - ronéo, septembre 1975. Ces articles 
contiennent une  abondante bibliographie 
consacrée a d'autres publications du 
gouvernement américain produites a la suite 
de ces travaux de couplage. 


Les résultats devraient é@tre présentés de 
fagon sommaire par Beth Kilss et F. Scheu- 
ren, Office of Research and Statistics, 
Social Security Administration. Ils ont 
présenté une version préliminaire de "The 
LOB MCES-=IRS=SS AG xactmMalechims hud yaamsrasites 
Present and Future" lors du colloque de la 
NBER sur les conséquences politiques de 
l'utilisation des fichiers de recherche de 


la Securite sociale (15 au 17 mars 1978). 


J.M. Kennedy, H.B. Newcombe, E.A. Okazaki et 
M.E. Smith, “Computer Methods for Family 
Linkage of Vital and Health Records”, Ener- 
gie atomique du Canada Limitée, Chalk River, 
Ontario, avril 1965. Newcombe, Smith et 
Kennedy ont publié un certain nombre d'arti- 
cles sur les aspects du couplage des dos- 
siers dans diverses revues spécialisées. 


Lops Felleoi et ANB. Ssunter, A Theory for 
Record Linkage” Journal of the American 
Statistical Association, vol. 64, 1969, pp. 
1163 a. 1210. 

Bien que ces @écarts puissent étre assimilés 
a des erreurs de déclaration, ils peuvent 
également provenir d'erreurs de saisie et 


d'exploitation des données ou résulter des 
procédures de contrdle et d'imputation. Il 
faut aussi noter que les données fiscales ne 


tiennent pas compte des déclarants retarda- 
taires, des réévaluations et des corrections 
additionnelles introduites aprés la date 
limite de création du fichier. 
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(7) A detailed discussion of the 
derived from longitudinal 
contained in an unpublished _ staff 
paper, prepared in July 1980 in the 
Consumer Income and Expenditure Divi- 
sion of Statistics Canada. Its contents 
will be incorporated in a future publi- 
cation of longitudinal data and analy- 


sis. 

(8) The use of apartment number was in- 
tended, but processing problems pre- 
vented our using it. 

(9) Actually, the so-called REDID was used 
which consists of the first five char- 
acters of the surname with some modifi- 
cations for blanks and apostrophies 
and a uniform treatment of Mc... and 
MAG. s< ° 

(10) All figures are rounded to the nearest 
thousand. 

(11) See introductory section - The Matching 
of Tax and Census Records. 

(12) These very stringent conditions apply 
to the first round. In the second 
round, only surname had to agree and 


year of birth and month of birth could 
deviate within certain limits. 


(13) While we succeeded in isolating apart- 
ment numbers, we ultimately failed in 


processing them properly and had to do 


without them. Thus, apartment numbers 
will not be discussed any further. The 
pilot project, however, showed that 


apartment numbers are a valuable data 
item in reaching matching decisions. 


(14) Expected total income was estimated as 


follows: 
Census —- Recensement 


RC> i) —ahC= i 
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(7) 


(8) 


(9) 


(10) 
CLE) 
(12) 
Cr) 
(14) 
$"000,000 
246.131 
239.707 


6.424/246.131 


Une discusion détaillée de l'utilité des 
données longitudinales figure dans un docu- 
ment non publié rédigé en juillet 1980 par 
la Division du revenu et des dépenses des 
consommateurs de Statistique Canada. Son 
contenu sera incorporé a4 une publication 
ultérieure consacrée 4 l'analyse et aux don- 
nées longitudinales. 


Certains problémes d'exploitation nous ont 
empéchés d'utiliser le numéro d'apparte- 
ment. 

En fait, le variable REDID utilise les cing 
premiers caractéres du nom de _ famille, 
compte tenu de certaines modifications 
destinées 4 tenir compte des blancs, des 


apostrophes et du traitement des Mc et Mac. 


Les chiffres sont arrondis au millier prés. 


: 


Voir, dans les remarques liminaires, la 
section intitulée Appariement des dossiers 
de l'impét et du recensement. | 


Ces conditions trés sévéres ne. s'appli- 
quaient qu'a la premiére série d'interroga- 
tions. Dans la deuxiéme série, seul le nor 
de famille devait coincider; l'année et le 
mois de naissance pouvaient  s'écarter 
quelque peu. 


a isoler les 
ne sommes pas 


Bien que nous ayons réussi 
numéros d'appartement, nous 
parvenus 4 les exploiter correctement et 
nous avons di nous en passer. La question 
des numéros d'appartement ne sera donc pas 
examinée plus 4 fond. Le projet  pilote 
montrait néanmoins que le numéro d'apparte- 
ment constituait une donnée fort utile pour 
en arriver a une décision quant 4 1'apparie- 
ment. 


Le revenu 
Suit: 


total prévu a été estimé comme 


Conceptually compatible 
total income for all true 
matches, but some of it 
reported in one source 
only - Total conceptuel- 
lement compatible pour 
l'ensemble des apparie- 
ments justes; certains 
éléments du revenu n'ont. 
toute fois été déclarés 
que dans une seule 
source 


or SOit 20, 


Census (non-matches) - 
| Recensement (non- 

- appariements) 

Est. RC-T non-match 
component — Non- 
appariements RC-I est. 


RC-T matches — 
_ Appariements RC-I 
| 
(15) Roger A. Herriot and Emmelt F. Spiers, 
| “Some Preliminary Results from the 1973 
GPS-TRS-SSA Exact Mateh Study", United 
| States Department of Commerce, Bureau 
of the Census - mimeo. This is one of 
the papers delivered at the 1975 annual 
| meeting of the American Statistical 
Association and was to appear in the 


197 Proceedings of the Social 
| Statistics Section. 
| From Table 5 of that paper, the follow- 


| ing results have been reworked and can 


. be compared with Table 18 of this 

| paper. “Census Overreported” should 
read CPS overreported, and "Census 
Underreported” should read CPS under- 

reported in the United States context, 
where CPS is the Current Population 
Survey. 


More than one class below main diago- 
eel PA Ohell) wore Syesyee 


One class below main diagonal, 3,145 or 
1 Sallhe 


On main diagonal, 25,618 or 65.272. 
One class above main diagonal, 4,784 or 
PE ibe 


More than one class above main diago- 
nad jod,645.0r 9.3%. 


- 5 - 


$*000,000 


36.163 
944 


Soe2 49 


23907 OF 


274.926 


(36.163 x 0.0261 = 


estimated overreport 
ing -—) surdéclaration 
estimative 


(15) Roger A. Herriot et Emmelt F. Spiers, “Some 


Preliminary Results from the 1973 CPS-IRS- 
SSA Exact Match Study", -ministére du Com- 
merce des ftats-Unis, Bureau du recensement, 
ronéo. Il s'agit d'un des exposés présentés 
a l'occasion de la réunion annuelle de 1975 
de la American Statistical Association; il 
figure dans le procés-verbal de la Section 
des statistiques sociales. 


Les chiffres qui  suivent son tirés du 
tableau 5 de ce document; ils ont été refor- 
mulés de facgon Aa pouvoir é6tre comparés 4 


ceux du tableau 18 de notre étude. Les 
titres “surdéclaration - recensement"” et 
“sous-déclaration - recensement™ du tableau 


18 correspondent respectivement a la surdé- 
claration et a 1a sous-déclaration dans 
l'enquéte américaine (Current Population 


Survey). 


Plus de une classe sous la diagonale princi- 
Dale. 2, 0S lmour oo. 


Une classe sous la 
Sela mOU ors Ac 


diagonale principale, 


Sur la diagonale principale, 25,618 ou 
ODe2he 
Une classe au-dessus de la _ diagonale 


principale, 4,784 ou 12.22%. 


Plus de une classe au-dessus 
jabeikiglentoyenla\. Si yoy) Weyel CIASVAR 


de la diagonale 


TABLE 1. Census Income Recipients, by Match Status and by Major Source of Income for Income Base Year, 1970 
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TABLEAU 1. Personnes ayant déclaré un revenu au recensement, selon le statut d'appariement et la principale source de revenu, 1970 


Major source of income 


Principale source de revenu 


Wages and salaries — Réminérations 


Income from self-employment - Revenu d'un travail 


autonome 


Multiple-earned income(1) - Revenu gagné tiré de 


plusieurs sources(1) 


All earned income — Total, revenu gagné 


Non-earned income(2) - Revenu non gagné(2) 


All major sources — Total, principales sources 


Match 
Appartement 
number 


nombre 


35,276 


Zooey 


172 


37,975 


4,738 


42,713 


(1) Two or more sources are of equal size and occupy top rank. 
1) Deux ou plusieurs sources de taille égale venant au premier rang. 
2) Summarized, but defined for the following sources: Retirement Income 


ment income, rental income and “Other" income). 


per cent 


pourcentage 


82.6 


Non-match 


Non-appariement 


number 


nombre 


7,383 


8,185 
Ture 


15,357 


per cent 


pourcentage 


48.1 


‘ 

, 

¢ 

Pp 

Total i 

, 

number per cent q 

nonbre pourcentaye 

: 

42,659 73.5 ' 
3,246 5-6 
255 0.4 
46,160 79.5 
145910 20.5 
58,070 100.0 


(combined old-age security and pension income), Miscellaneous (includes invest- 


(2) Comprend les sources suivantes: retraite (prestations de sécurité de la vieillesse et pensions), divers (revenus de placements, revenus locatifs et 


“autres revenus"). 
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TABLEAU 2. Population adulte du recensement par grands groupes d'age et selon le sexe et l'état matrimonial, répartitions en pourcentage, 1971 


Age group 


Groupe d'age 


Male 


Masculin 


Married 


Marié 


Not married 


Non marié 


Female 


Féminin 


Married 


Mariée 


Not married 


Non mariée 


Male and female 


Masculin et féminin 


Total 


Married 


Marié 


Not married 


Non marié 


ee eee eee 


15-20 years - ans 76,230 1,186,561 
21-64 years - ans 4,250,960 1,236,279 
65 years and over - ans et plus 561,570 220,290 
All ages — Tout ages 4,888,760 2,643,130 
Percentage distribution between 

age groups — Répartition en 

pourcentage par groupe d'age: 
15-20 years - ans 1.6 44.9 
21-64 years - ans 87.0 46.8 
65 years and over ~ ans et plus 11.5 8.3 
All ages — Tout Ages 100.0 100.0 
Percentage distribution within 

age groups — Répartition en 

pourcentage par état matrimo- 

nial et sexe: 
15-20 years — ans 3.1 7.6 
21-64 years - ans 38.8 11.3 
65 years and over - ans et plus 32.2 12.6 
All ages - Tout ages 32.2 17.4 
Note: Age and marital status as of June 1 Se HS 


Nota: Age et 6tat matrimonial au 1¢° juin 1971. 


Source: Census of Population, 1971 (Statistics Canada); 


Source: Recensement de la population, 


1971 (Statistique Canada) ; 


181,289 
4,330,496 
377,055 


4,888 ,840 


32.2 


1,048,157 
1,133,003 
585,515 


2,766,675 


37.9 
41.0 
21.2 


100.0 


2,492,237 
10,950,738 
1,744,430 


15,187,405 


100.0 
100.0 
100.0 


100.0 


with interpolation for 20-year age group from published data. 


257,519 
8,581,456 
938 ,625 


9,777,600 


2,234,718 
2,369,282 
805,805 


5,409,805 


les données du groupe d'age de 2U ans ont été interpolées 4 partir de données publiées. 
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_ TABLE 3. Sample of Adult Census Population by Basic Age Group, by Sex and Broad Marital Status with Percentage Distributions, 1971 


TABLEAU 3. Echantillon de la population adulte du recensement par grands groupes d'A@ge et selon le sexe et l'état matrimonial, répartitions en 


pourcentage, 1971 


Age group 


Groupe d'age 
} 


15-20 years - ans 
21-64 years - ans 
65 years and over —- ans et plus 


All ages — Tout Ages 


Percentage distribution between 
age groups — Répartition en 
pourcentage par groupe d'age: 


15-20 years - ans 
21-64 years - ans 
65 years and over —- ans et plus 


All ages — Tout Ages 


Percentage distribution within 
age groups — Répartition en 
pourcentage par état matrimo- 
nial et sexe: 


15-20 years - ans 
21-64 years - ans 


65 years and over — ans et plus 


All ages - Tout Ages 


Male 


Masculin 


Married 


Marié 


232 
21,305 
Di S3 


24,270 


Note: Age and marital status as of June l, 1971. 
Nota: Age et état matrimonial au 1° juin 1971. 


Not married 


Non marié 


6,712 
6,646 
1,382 


14,740 


48.4 
11.9 
14.9 


18.6 


Female 


Féminin 


Married 


Mariée 


850 
21,667 
1,754 


24,271 


Not married 


Non mariée 


6,085 
6,435 
3, 380 


15,900 


38.3 
40.5 
21.3 


100.0 


Male and female 


Masculin et féminin 


Married 
Total 

Marié 
13,879 1,082 
56,953 42,972 
9,249 4,487 
79,181 48,541 
17.5 202 
70.8 88.5 
11.7 9.2 
100.0 100.0 
100.0 7.8 
100.0 76.7 
100.0 48.5 
100.0 61.3 


TABLE 4. Matched Records(1) by Basic Age Group, by Sex and Broad Marital Status with Percentage Distributions, 1971 


TABLEAU 4. Dossiers appariés(1) par grands groupes d'age et selon le sexe et 1'état matrimonial, répartitioms en pourcentage, 1971 


Not married 


Non marié 


12,797 
13,081 
4,762 


30,640 


41.8 
42.7 
15.5 


100.0 


92.2 
23.3 
51.5 


38.7 


Age group 


Groupe d'age 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages - Tout Ages 


Percentage distribution between 
age groups — Répartition en 
pourcentage par groupe d'age: 


15-20 years - ans 
21-64 years —- ans 
65 years and over - ans et plus 


All ages — Tout Ages 


Percentage distribution within 
age groups — Répartition en 
pourcentage par état matrimo- 
nial et sexe: 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages - Tout Ages 


Male 


Masculin 


Married 


Marié 


188 
18,855 
1,827 


20,870 


Not married 


Non marié 


2,359 
4,568 
547 


7,474 


Female 


Féminin 


Married 


Mariée 


362 
8,084 
391 


8,837 


20.1 


Not married 


Non mariée 


1,626 
3,945 
1,134 


6,705 


24.3 
58.8 
16.9 


100.0 


35.9 
11.1 
29.1 


15.3 


Male and female 


Masculin et féminin 


Total 


4,535 
35,452 
3,899 


43,886 


100.0 
100.0 
100.0 


100.0 


Married 


Marié 


550 
26,939 
2,218 


29,707 


Not married 


Non marié 


3,985 
8,513 
1,681 


14,179 


28.1 
60.0 
11.9 


100.0 


(1) True matches only, since these data were compiled after editing out and converting false matches to non-matches. 


(1) Appariements justes seulement; la compilation des données s'est en effet faite aprés la vérification et la conversion des appariements erronés en 


non-appariements. 


Note: Age and marital status as of June 1, 1971. 
Nota: Age et 6tat matrimonial au 1®° juin 1971. 


TABLE 5. True Matches with Income Reported in One Source(1) Only, by Basic Age Group, by Sex and Broad Marital Status with Percentage Distributions, 


1971 


TABLEAU 5. Appariements justes, revenu déclaré dans une seule source(1) par grands groupes d'age et selon le sexe et 1'état matrimonial, répartitions e 


pourcentage, 1971 


Age yroup 


Groupe d'age 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages — Tout 4ges 


Percentage distribution between 
age groups — Répartition en 
pourcentage par groupe d'age: 


15-20 years - ans 
21-64 years - ans 
65 years and over —- ans et plus 


All ages — Tout Ages 


Percentage distribution within 
age groups — Répartition en 
pourcentage par état matrimo- 
nial et sexe: 


15-20 years - ans 
21-64 years - ans 


65 years and over - ans et plus 


Ail ages — Tout 4ges 


(1) Census or Revenue Canada ~ Taxation (RC-T), but most of these records (1158/1171) have reported income exclusively to RC-T. 
(1) Recensement ou Revenu Canada ~ Imp6t (RC-I); dans la plupart des cas (1158/1171), toutefois, le revenu n'avait 6té déclaré qu'a RC-I. 


Male 


Masculin 


Married 


Marié 


10.2 


Note: Age and marital status as of June 1, 1971. 
Nota: Age et état matrimonial au 1°° juin 1971. 


Not married 


Non marié 


60.1 
15.9 
33'.3 


30.2 


=- 58 - 


Female 


Féminin 


Married 


Mariée 


6.1 
57.9 
11.1 


40.9 


Not married 


Non mariée 


33.5 
eS: 
44.4 


18.7 


Male and female 


Masculin et féminin 


Total 


100.0 
100.0 
100.0 


100.0 


TABLE 6. All Non-matches by Basic Age Group, by Sex and Broad Marital Status with Percentage Distributions, 1971 


TABLEAU 6. Ensemble des non-appariements par grands groupes d'adge et selon le sexe et 1'état matrimonial, répartitions en pourcentage, 1971 


Age group 


Groupe d'age 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages - Tout Ages 


Percentage distribution between 
age groups — Répartition en 
pourcentage par groupe d'4ge: 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages — Tout Ages 


Percentage distribution within 
age groups - Répartition en 
pourcentage par état matrimo- 
nial et sexe: 


15-20 years - ans 
21-64 years — ans 


65 years and over - ans et plus 


All ages — Tout Ages 


Male 


Masculin 


Married 


Marié 


44 
2,450 
906 


3,400 


100.0 


9.6 


Note: Age and marital status as of June D5. OFS 
Nota: Age et état matrimonial au 1¢€T juin 1971. 


Not married 


Non marié 


4,353 
2,078 
835 


7,266 


59 e9 
28.6 
11.5 


100.0 


46.6 
10.1 
15.6 


20.6 


Female 


Féminin 


Married 


Mariée 


488 
13,583 
1,363 


15,434 


co 
waamw 

. 
maon 


Not married 


Non mariée 


4,459 
2,490 
2,246 


9,195 


48.5 
2741 
24.4 


100.0 


47.7 
12.1 
42.0 


26.1 


Male and female 


Masculin et féminin 


Total 


9,344 
20,601 
5,350 


355295 


26.5 
58.5 
15.2 


100.0 


100.0 
100.0 
100.0 


100.0 


Married Not married 
Marié Non marié 
24 S512) 

Diz 214 
2 7 
598 573 
4.0 61.4 
95.7 37.3 
9.3 1.2 
100.0 100.0 
6.4 93.6 
72.8 Dok 
22.2 77.8 
51.1 48.9 


Married Not married 
Marié Non marié 
532 8,812 
16,033 4,568 
2,269 3,081 
18,834 16,461 | 
De 53.5 
85.1 27.8 
12.0 18.7 
100.0 100.0 
Sat 94.3 
77.8 one 
42.4 57.6 
53.4 46.6 


TABLEAU 7. Non-appariements justes par grands groupes d‘fge et selon le sexe et l'état matrimonial, répartitions en pourcentage, 1971 


Age proup 


Groupe d'age 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages - Tout Ages 


Percentage distribution between 
age groups — Répartition en 
pourcentage par groupe d'age: 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages — Tout 4ges 


Percentage distribution within 
age groups — Répartition en 
pourcentage par état matrimo- 
nial et sexe: 


15-20 years - ans 
21-64 years - ans 


65 years and over - ans et plus 


All ages - Tout Ages 


Male 


Masculin 


Married 


Marié 


25 
990 
823 


1,838 


Note: Age and marital status as of June 1, 1971. 
Nota: Age et état matrimonial au 1®° juin 1971. 


Not married 


Non marilé 


4,166 
1,162 
775 


6,103 


68.3 
19.0 
12.7 


100.0 


» 5e= 


Female 


Féminin 


Married 


Mariée 


427 
12,980 
1,336 


14,743 


Not marrted 


Non mariée 


4,363 
2,022 
DiVAg? 


8,527 


51.2 
23.7 
25.1 


100.0 


48.6 
11.8 
42.2 


27.3 


TABLE 7. True Non—matches by Basic Age Group, by Sex and Broad Marital Status with Percentage Distributions, 1971 


Male and female 


Masculin et féminin 


Total 


8,981 
17,154 
5,076 


31,211 


100.0 
100.0 
100.0 


100.0 


TABLE 8. False Non-matches by Basic Age Group, by Sex and Broad Marital Status with Percentage Distributions, 1971 


TABLEAU 8. Non-appariements erronés par grands groupes d‘age et selon le sexe et l'état matrimonial, répartitions en pourcentage, 1971 


Age group 


Groupe d'age 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages - Tout Ages 


Percentage distribution between 
age groups — Répartition en 
pourcentage par groupe d'age: 


15-20 years - ans 
21-64 years - ans 
65 years and over - ans et plus 


All ages - Tout Ages 


Percentage distribution within 
age groups — Répartition en 
pourcentage par 6tat matrimo-— 
nial et sexe: 


15-20 years - ans 
21-64 years - ans 


65 years and over - ans et plus 


All ages - Tout 4ges 


Male 


Masculin 


Married 


Marié 


19 
1,460 
83 


1,562 


38.2 


Note: Age and marital status as of June 1, 1971. 
Nota: Age et 6tat matrimonial au 1¢° juin 1971. 


Not married 


Non marié 


187 
916 
60 


1,163 


Female 


Féminin 


Married 


Mariée 


61 
603 
27 


691 


Not married 


Non mariée 


96 
468 
104 


668 


14.4 
7061 
15.6 


100.0 


Male and female 


Married 


Marté 


452 
13,970 
2,159 


16,581 


Maseulin et féminin 


Total 


363 
3,447 
274 


4,084 


o 
Deo 
. 
a eo) 


100.0 
100.0 
100.0 


100.0 


Married 


Marié 


80 
2,063 
110 


2,253 


100.0 


22.0 
59.8 
40.1 


55.2 


Not married 


Non marié 


8,529 
3,184 
2,917 


14,630 


58.3 
21.8 
19.9 


100.0 


95.0 
18.6 
57.5 


46.9 


Not married 


Non marié 


283 
1,384 
164 


1,831 


78.0 
40.2 
59.9 


44.8 
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TABLE 9. Reporting Pattern of Income Components for True Matches, by Source Presence with Consistency Rate for Income Base , 
Year, 1970 ni 

e 

TABLEAU 9. Modéle de déclaration des éléments du revenu dans les appariements justes, selon la présence de la source et taux 
de cohérence, 1970 


Absent in Present in Present in Present in 

both sources RC-T Census record both soure 

record only only 

> component : ; 
Dilek J Absent dans IRGSUL Recensement Présent da 


Elément du revenu les deux seulement seulement les deux 

ey sources sources 
1 2 3 4 

Wages and salaries - Rémunérations 5,032 2050 shite) 35,480 


Non-farm self-employment income (net) - 

Revenu non agricole d'un travail 

autonome (net) 39,535 1,405 ib AWA P3732 
Farm self-employment income (net) —- 

Revenu agricole d'un travail autonome 


(net) 41,622 432 334 1,498 
Old-age security income — Prestations 
de sécurité de la vieillesse 39,768 iehy/ 233 3,748 
Pension income — Pensions 40,869 816 718 1,483 
Investment income(1) - Placements(1) 23,906 Wa has) 1,303 10,921 
Other income ~ Autres revenus 39,2 16 3,668 691 Sy il 
Income subject to taxation - Revenu 
soumis 4 l'impét 4 TiS ¥3} 13 a2 all 
a 
Present in at Consistently Number of cells Consistency Single-it 
least one present or compared rate(2) rate(3) 


source absent in 
both sources 


Présent dans Systématiquement Nombre de Taux de Taux de 
au moins une présent ou dossiers cohérence(2) présence | 
source absent dans les comparés unique(3) 


deux sources 


5 6 Ul 8 9 


a — 
per cent — pourcentage 


Wages and salaries - Rémunérations 38,854 40,512 43,886 
Non-farm self-employment income (net) - 

Revenu non agricole d'un travail 

autonome (net) hs to)I| 41,267 43,886 94.0 6.0 
Farm self-employment income (net) - 

Revenu agricole d'un travail autonome 


92re3 7.7 


(net) 2,264 43,120 43,886 98.2 1.8 
Old-age security income — Prestations 

de sécurité de la vieillesse 4,118 43,516 43,886 99.2 0.8 
Pension income — Pensions SyAOily2 LES 52 43,886 96.5 S05 
Investment income(1) - Placements(1) 19,980 34,827 43,886 79.4 20.6 
Other income - Autres revenus 4,670 39), 527 43,886 90.1 9.9 
Income subject to taxation - Revenu 

soumis Aa l'impét 43,882 42,715 43,886 97.3 27 


(1) Includes net rental income. ; 


(1) Revenus locatifs nets compris. 
(2) The sum of all records with comp 


onent absent in both sources (Column 1), and records 
sources (Column 4) 


, all divided by the number of cells compared (Column 7). 


Cc 
Somme des dossiers dans lesquels le revenu est absent dans les deux sources (colonne 
présent dans les deux sources (colonne 4 


(3) The sum of all records with co 
cells compared. 

(3) Somme de l'ensemble des dossiers dans les 
chiffres comparés. 


with component present in both 


(2) 1) et de ceux dans lesquels il est 
) divisée par le nombre de chiffres comparés (colonne 7). 


mponent present exclusively in RC-T, or exclusively in Census, all divided by the number | 


quels le revenu n'est présent que dans une seule source divisée par le nombre 


- 61 - 


TABLE 10. Reporting Patterns of Income Components, by Province for True Matches with Income Subject to Taxation Present in Both Sources(!) for the 
‘ Income Base Year, 1970 


TABLEAU 10. R&gime de d&claration des 6léments du revenu, par province, appariements justes, revenu soumia A l'impét présent dans les deux sources(1), 


1970 
Number of Total income(2) by source Non-sampling effect (NSE) 
records 
Revenu total(2) par source Effet d'observation (EQ) 
p Nombre de 
rovince i ee 
dossiers 
Census RC-T AD(3) AD/RC-T Average Al) 
Recensement RC-L ficart(3) feart/RC-[ ficart moyen 
thousands of dollars per cent dollars 
milliers de dollars pourcentage 
Records with all components reported consistently in 
both sources(1) - Dossiers dans lesquels l'ensemble 
des 6léments ont &t&é déclarés uniformément dans les 
deux sources(1): 
Newfoundland - Terre-Neuve 1,285 5,301 5,268 33 0.6 26 
Prince Edward Island - fle-du-Prince-fdouard 330 1,295 1,228 67 Se 203 
Nova Scotia - Nouvelle-Ecosse 2,441 11,060 11,022 38 0.3 16 
New Brunswick ~ Nouveau-Brunswick 1,990 yal 8,139 72 0.9 36 
Québec 4,982 27,166 27,612 446 1.6 90 
Ontario 7,804 44,171 43,860 311 0.7 40 
Manitoba 1,524 7,661 7,631 30 0.4 20 
Saskatchewan 1,244 5,536 Dias 343 6.6 276 
Alberta Zs S21 13,405 12919) 486 3.8 193 
British Columbia(4) - Colombie-Britannique(4) 3,319 195133 18,444 689 Bia, 208 
CANADA 27,440 142,939 141,316 1,623 1.1 59 
Records with some components reported inconsistently 
in both sources(1) —- Dossiers dont certains éléments 
sont déclarés sans uniformité dans les deux 
sources(1): 
Newfoundland - Terre-Neuve 577 3,401 3,204 197 6.1 341 
Prince Edward Island - fle-du-Prince-Edouard 167 826 735 91 12.4 545 
Nova Scotia — Nouvelle-ficosse 1,299 8,228 5203 1,025 14.2 789 
New Brunswick - Nouveau-Brunswick 913 4,791 4,546 245 5.4 268 
Québec 2,758 19,626 18,633 993 5.3 360 
Ontario 4,575 33,129 32,059 1,070 3.3 234 
Manitoba 867 5,216 4,825 met 8.1 451 
Saskatchewan 738 a a S007, 700 22.7 949 
Alberta 1,455 10,842 9,605 1,237 12.9 850 
British Columbia(4) - Colombie-Britannique(4) 1,922 13,314 12,549 765 (opel 398 
CANADA 15,271 103,150 96,436 6,714 7.0 440 
All true Consistency Provincial rank order 
matches with score(5) 
total income Rang provincial en ordre 
Ensemble des Degré de 
appariements cohérence(5) Descending Ascending average AD 
justes ayant un consistency 
revenu total score feart moyen (ordre croissant) 
Cohérence 
(ordre Consistent Inconsistent 
décroissant) records records 
Dossiers Dossiers 
cohérents incohérents 
Records with components in both sources(1l) - 
Dossiers dans lesquels les éléments sont présents 
dans les deux sources(1): 
Newfoundland - Terre-Neuve 1,862 69.0 1 3 3 
Prince Edward Island - fle-du-Prince-fidouard 497 66.4 3 8 7 
Nova Scotia - Nouvelle-fcosse 3,740 65.3 4 1 8 
New Brunswick - Nouveau-Brunswick 2,903 68.5 2 4 2 
Québec 7,740 64.4 5 6 4 
Ontario 12,379 63.0 9 5 1 
Manitoba 2,391 63.7 6 2 6 
Saskatchewan 1,982 62.8 10 10 10 
Alberta 3,976 63.4 7 7 9 
British Columbia(4) - Colombie-Britannique(4) 5,241 63.3 8 9 5 
CANADA 42,711 64.2 eee oes ose 


(1) Census and Revenue Canada - Taxation (RC-T). 
(1) Recensement et Revenu Canada — Imp6t (RC-I). 
(2) Made conceptually compatible; i.e., “income subject to taxation". 
(2) Rendu conceptuellement compatible (c.-a-d., “revenu soumis a l'imp6t"). 
(3) The difference in total income (see footnote 2 above) as observed in Census and RC-T records for any given individual, aggregated for each 
ake dean unit and stated in absolute terms. 
cart entre le revenu total (voir note 2) déclaré au recensement et a RC-I par un particulier groupé par unités géographiques et exprimé 
en chiffres absolus. 
(4) Includes records for Yukon and Northwest Territoires. 
(4) Yukon et Territoires du Nord-Ouest compris. 
(5) Number of records with consistent components divided by “all true matches” in per cent. 
(5) Nombre de dossiers cohérents divisé par l'ensemble des appariements justes et exprimé en pourcentage. 


(3) 


TABLE 11. Omissions and Substitutions of Income Components, by Reliability Category with Aggregate Total Income by Data Sour 


for the Income Base Year, 1970 


TABLEAU 11. Omissions et substitutions d'éléments du revenu, par catégorie de fiabilité, et revenu agrégatif total par sour 


de données, 1970 


Number of components omitted or substi- 
tuted and data source — Nombre d'é1é- 
ments omis ou substitués et source de 
données: 


One omission —- Census - Une omission —- 
Recensement 


Two or three omissions - Census —- Deux ou 
trois omissions — Recensement 


One omission — RC-T - Une omission — RC-I 


Two or three omissions - RC-T — Deux ou 
trois omissions —- RC-I 


One substitution — Census/RC-T -— Une 
substitution - Recensement/RC-I 


Two or three substitutions - Census/ 
RC-T — Deux ou trois substitutions - 
Recensement /RC-I 


One or two omissions (Census) and one or 
two substitutions - Une ou deux onis-— 
sions (recensement) et une ou deux 
substitutions 


One or two omissions (RC-T) and one or 
two substitutions - Une ou deux omis-— 
sions (RC-I) et une ou deux substitu- 
tions 


Other multiple omissions and substitu- 
tions — Autres omissions et substitu- 
tions mltiples 


All records with omissions and/or substi- 
tutions - Ensemble des dossiers avec 
omissions et (ou) substitutions 


All records without omissions and/or 
substitutions - Ensemble des dossiers 
sans omissions et (ou) substitutions 


All true matches with income subject to 
taxation in both sources (Census and 
RC-T) — Ensemble des appariements jus- 
tes dont le revenu est soumis a Ll‘ impét 


dans les deux sources (recensement et 
RC-I) 


See footnote(s) at end of table. 
Voir note(s) a la fin du tableau. 
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Reliability category(1) - Catégorie de fiabilité(1) 


Number of records 


Nombre de dossiers 


High (A) Low (B) 

Grande (A) Faible (3B) 

3,842 DS) 

335 549 

Oe. dh ues} 

6 140 

850 906 

13 2G, 

WOES: S20 

13 112 

1 9 

Brea: 55 511'6 

NL PR 4,580 

22,971 9,896 


Indeterminate (C) 


Indéterminée (C) 


2,640 


383 


Sel 


32 


401 


140 


33 


4,228 


5,616 


9,844 


Total 


8,621 


L267 


25256 


178 


ZB MSi7/ 


48 


576 


158 


10 


15,271 


27,440 


42,711 


Total income(2) 


Revenu total(2) 


High (A) - Grande 


Census RC-T 
Recensement RC-I 
thousands of dollars 


milliers de dollars 


23,010 234 
2,320 2,3 
3,169 3 

39 
4,968 4,971 
86 
734 
89 
5 
34,420 34, ! 
84,722 84, 
119,142 119,39 
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BLE 11. Omissions and Substitutions of Income Components, by Reliability Category with Aggregate Total Income by Data Source 
for the Income Base Year, 1970 - Concluded 


BLEAU 11. Omissions et substitutions d'éléments du revenu, par catégorie de fiabilité, et revenu agrégatif total par source 


de données, 1970 - fin 


mber of components omitted or substi- 
tuted and data source - Nombre d'élé- 
ments omis ou substitués et source de 
données: 


e omission — Census — Une omission - 
Recensement 

© or three omissions —- Census — Deux ou 
trois omissions - Recensement 

e omission — RC-T - Une omission — RC-I 
© or three omissions - RC-T - Deux ou 
‘trois omissions -— RC-I 

e substitution - Census/RC-T - Une 
substitution - Recensement /RC-I 

o or three substitutions - Census/ 
RC-T - Deux ou trois substitutions - 
Recensement /RC-I 

e or two omissions (Census) and one or 
two substitutions — Une ou deux omis-— 
sions (recensement) et une ou deux 
substitutions 

e or two omissions (RC-T) and one or 
two substitutions — Une ou deux omis-— 
sions (RC-I) et une ou deux substitu- 
tions 

her multiple omissions and substitu- 
tions —- Autres omissions et substitu- 
tions multiples 


; 


1 records with ommissions and/or substi- 
tutions —- Ensemble des dossiers avec 
omissions et (ou) substitutions 


1 records without omissions and/or 
‘substitutions - Ensemble des dossiers 
sans omissions et (ou) substitutions 


1 true matches with income subject to 
taxation in both sources (Census and 
RC-T) -— Ensemble des appariements jus— 
tes dont le revenu est soumis a 1l'imp6t 
dans les deux sources (recensement et 
RC-I) 


Reliability category(1) - Catégorie de fiabilité(1) 


Total income(2) - Revenu total(2) 


Low (B) 


Faible (B) 


Census 


Recensement 


thousands of dollars - milliers de dollars 


10,640 


25109 
VS) 


2,228 


6,523 


292 


Zl O 


970 


103 


35,226 


20,519 


55,745 


RC-T 


RC-I 


15677 


3,798 
4,784 


618 


B5020 


194 


US 27.9 


549 


SY 


27,676 


18,091 


45,767 


Indeterminate (C) 


Indéterminée (C) 


Census 


Recensement 


20,586 


SD 
4,260 


281 


3,090 


44 


1,226 


293 


33,495 


37,698 


71,193 


RC-T 


RC-I 


21,385 


3,816 
4,079 


282 


3,098 


47 


1,235 


YS) 


34,217 


38 , 368 


72,585 


Total 


Census 


Recensement 


54,236 


8,800 
16,984 


2,548 


14,581 


422 


4,110 


103,141 


142,939 


246,080 


RCT 


RC-I 


56,183 


9,948 
72, 0) 2) 


939 


11,988 


O20. 


Seley? 


912 


162 


96,430 


141,316 


237,746 


) The classification is based on the absolute reporting error as well as on the percentage error with RC-T data as the base. 
- The reporting error has been calculated for conceptually compatible “total income” from Census and RC-T sources. Reliabi- 
lity of reporting is high (A), whenever the absolute error is $200 or less with the percentage error not exceeding 20%. 

Reliability of reporting is low (B), whenever the absolute error exceeds $200 with the percentage error also exceeding 
20%. Reliability of reporting is indeterminate (C) for all other records; i.e., whenever a combination of high absolute 
error and low percentage error occurs (in excess of $200, but less than 20%), or of low absolute error but high percent- 
age error (not exceeding $200 but in excess of 20%). 
) Le classement est fondé sur l'erreur de déclaration absolue et sur le pourcentage d'erreur des données de RC-I. L'erreur 
| de déclaration a 6té calculée pour un “revenu total” conceptuellement compatible tir&é du recensement et de RC-I. La fia- 
bilité est grande (A) quand l'erreur absolue est de $200 ou moins, le pourcentage n'étant pas supérieur a 20%. La fia- 
bilité est faible (B) quand l'erreur absolue est supérieure a $200, le pourcentage d'erreur 6tant lui aussi supérieur 4 
20%. La fiabilité est indéterminée (C) pour l'ensemble des autres dossiers: erreur absolue élevée et faible pourcentage 
_ d'terreur (plus de $200, mais moins de 20%), faible erreur absolue, mais pourcentage d'erreur 6levé (moins de $200, mais 


plus de 20%). 


) Made conceptually compatible; i.e., “income subject to taxation”. 
-) Rendu conceptuellement compatible; c.-a-d., “revenu soumis a 1'impét”. 


TABLE 12. Income Effect of Component Omission by Reliability Category, by Source of Omission, by Incidence Group for income 
Base Year, 1970 
| 


TABLEAU 12. Effet sur le revenu de l'omission d'un élément, par catégorie de fiabilité, selon la source de l'omission et leq 
groupe d'incidence, 1970 

SS ee a ae a a a aa 

Reliability category - Catégorie de fiabilité 


Incidence group am cen Sa 
High (A) Low (B) Indeterminate (C) 

Groupe d'incidence Tota 
Grande (A) Faible (B) Indéterminée (C) | 

[ 

- 

Census omissions — Recensement f 


Single omission - Omission unique: 
| 
Number of records - Nombre de dossiers 3,842 M5113) 2,640 8,6 
Census total income(1) aggregate - Revenu agrégatif J 
total au recensement(1) $'000 23,010 10,640 20,586 543 
RC-T total income aggregate - Revenu agrégatif ; 
total a RC-E $'000 ZS apleae 11,677 21,385 56,1 
Non-sampling effect (NSE) - Erreur d'observation 
(EO) $"'000 lil 1,037 799 1 
NSE/RC-T - Total income - E0/RC-I revenu total he 0.5 8.9 eiey/ 
Average NSE - EO moyenne $ 29 485 303 


Two or three omissions - Deux ou trois omissions: 


Number of records - Nombre de dossiers 335 549 383 152k 
Census total income(1) aggregate - Revenu agrégatif ; 

total au recensement(1) $'000 2320 25/65 S75 8,8 
RC-T total income aggregate —- Revenu agrégatif 

total a RC-I $'000 2,334 3,798 3,816 9,9) 
Non-sampling effect (NSE) - Erreur d'observation 

(E0) $'000 14 13033 101 1,lé 
NSE/RC-T — Total — EO/RC-I h 0.6 2 hie2. 2.6 lL 
Average NSE - EO moyenne $ 42 1,882 264 9: 


SE 
Revenue Canada omissions — Revenu Canada 


eee 


Single omission — Omission unique: 


Number of records - Nombre de dossiers Sysy SES 591 2s 
Census total income(1) aggregate - Revenu agrégatif 
total au recensement(1) $'000 3,169 9,555 4,260 16,9 
RC-T total income aggregate — Revenu agrégatif 
total a4 RC-I $'000 
Non-sampling effect (NSE) - Erreur d'observation 35156 4,784 4,079 12,0 
(EO) $"000 13 LO 7a 181 4,9¢ 
NSE/RC-T - Total income - E0/RC-I revenu total % 0.4 99)-7 4.4 ; 41 
Average NSE — EO moyenne $ 24 4,287 306 2,0 
: 
Two or three omissions - Deux ou trois omissions: { 
Number of records — Nombre de dossiers 6 140 32 
Census total income(1) aggregate — Revenu agrégatif 
total au recensement(1) $'000 39 We Hike 281 23 
RC-T total income aggregate — Revenu agrégatif 7 
total 4 RC-I $'000 39 618 282 
Non-sampling effect (NSE) - Erreur d'observation : 
(£0) $"000 - 1,610 1 1,66 
NSE/RC-T ~- Total - E0/RC-I x - 260.5 0.4 171, 
Average NSE - EO moyenne $ = 11,500 Bit 9 02 


(1) Made conceptually compatible; i.e., “income subject to taxation”. a 


(1) Rendu conceptuellement compatible; c.-a-d., “revenu soumis A l'impét". 


{ncidence group 


$roupe d'incidence 


Single component substitution —- Sub- 
stitution unique: 


Number of records —- Nombre de dos- 
siers 


Sensus total income(1) aggregate - 
Revenu agrégatif total au recense- 
ment (1) 


*C-T total income aggregate —- Revenu 
agrégatif total a RC-I 


Yon-sampling effect (NSE) - Erreur 
d'observation (EO) 


NSE/RC-T - Total income - EO/RC-I 
revenu total 


Average NSE — EO moyenne 


[wo or three component substitu- 
tions — Deux ou trois substitu- 
tions: 


Number of records - Nombre de dos- 
siers 


Sensus total income(1) aggregate - 
Revenu agrégatif total au recense- 
ment (1) 


2C-T total income aggregate - Revenu 


 agrégatif total a RC-I 
| 
Non-sampling effect (NSE) - Erreur 


 d'tobservation (EO) 


NISE/RC-T - Total income - EO/RC-I 
revenu total 


Average NSE - EO moyenne 


(1) Made conceptually compatible; i.e., “income subject to taxation”. 
(1) Rendu conceptuellement compatible; c.-a-d., “revenu soumis a l'impét”. 


$'000 


$'000 
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Reliability category - Catégorie de fiabilité 


High (A) 


Grande (A) 


850 


202) 


13 


86 


86 


(2) Within Census reporting (rounding) limits of $10. 
(2) Les chiffres du recensement ont été arrondis a $10. 


Low (B) 


Faible (B) 


906 


0,023 


35,920 


2,603 


66.4 


2,873 


27 


292 


194 


98 


50.5 


3,630 


Indeterminate (C) 


Indéterminée (C) 


401 


0.3 


44 


47 


TABLE 13. Income Effect of Component Substitution, by Reliability Category and Incidence of Substitu- 
tion for Income Base Year, 1970 


ABLEAU 13. Effet sur le revenu de la substitution d'un élément, par catégorie de fiabilité, selon la 
source de la substitution et le groupe d'incidence, 1970 


Total 


2,157 


14,581 


11,988 


2,593 


21.6 


13202 


48 


422 


327 


a5 


29.1 


1,979 


TABLE 14. Income Effect of Combined Omissions and Substitutions of Income Components, by Reliability 
Category and Source of Omissions for Income Base Year, 
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1971 


Se ae 


TABLEAU 14. Effet sur le revenu des omissions et des substitutions des éléments du revenu, par catégo- 
rie de fiabilité et source des omissions, 1971 


Source of omission 


Source d'omission 


Census —- Recensement: 


Records with one or two omissions 
combined with one or two substitu- 
tions —- Dossiers comportant une ou 
deux omissions et une ou deux sub- 
stitutions 


Census total income(1) aggregate — 
Revenu agrégatif total au recense- 


ment(1) $'000 
RC-T total income aggregate - Revenu 

agrégatif total a RC-I $'000 
Non-sampling effect (NSE) - Erreur 

d'observation (EO) $'000 
NSE/RC=-T - Total Income - EO/RC-I 

revenu total A 
Average NSE - EO moyenne $ 
RC-T — RC=I: 
Records with one or two omissions 

combined with one or two substitu- 

tions —- Dossiers comportant une ou 

deux omissions et une ou deux sub- 

stitutions 
Census total income(1) aggregate - 

Revenu agrégatif total au recense- 

ment( 1) $'000 
RC-T total income aggregate - Revenu 

agrégatif total A RC=I $'000 
Non-sampling effect (NSE) - Erreur 

d'observation (EQ) $'000 
NSE/RC-T — Total income - FO/RC-I 

revenu total 7h 
Average NSE -— EO moyenne S$ 
(1) Made conceptually compatible; i.e., 


(1) Rendu conceptuellement compatible; 


“income subject to taxation’. 
c.—a-d. 


Reliability category - Catégorie de fiabilité | 
ee 
High (A) Low (B) Indeterminate (C) 


Grande (A) Faible (B) Indéterminée (C) 


a 


1u5 EO) 140 576m 
73h 2,150 14226 4,110 
738 1,979 1,235 3,952 
4 171 9 158 
0.5 8.6 0.7 4.0 
35 533 Ge 27a 

| 

: 

; 

- 

13 no 83 isa 

89 970 293 a 

88 549 275 912 
1 42) 18 440 
ib Sal 16.7 Oe 48.2 
77 3.759 545 2,785 


77 ee ee 


“revenu soumis a l'imp6t”. 
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‘ABLE 15. Match Rates and Taxfiler Rates with Components, by Province with Descending Rank Order for the Income Base Year, 
1970 


‘ABLEAU 15. Eléments des taux d'appariement et des taux de déclaration a l'impét, par province et par ordre décroissant, 1970 


Match rate component 


Elément du taux d'appariement 


ae True False Estimated tax Match 
match non-match universe rate(1) 
in sample 
Appariement Non-apparie- Univers fiscal Taux 
juste ment erroné estimatif de d' apparie- 
1'échantillon ment (1) 
fewfoundland - Terre-Neuve TSA 2 204 2,146 90.5 
‘rince Edward Island - fle-du-Prince-fdouard 510 64 574 88.9 
fova Scotia - Nouvelle-Ecosse 3,814 356 4,170 91.5 
lew Brunswick - Nouveau-Brunswick 3,001 299 3,300 90.9 
jué bec Sele 2 Plow, 9,279 87.4 
mtario 12047) 901 13,548 93.3 
lanitoba 2,434 206 2,640 922, 
‘askatchewan 2,030 131 25 Gi 93.9 
lberta 4,056 284 4,340 93.5 
iritish Columbia(2) - Colombie-Britannique(2) 5,340 472 yee 91.9 
‘OTAL 43,886 4,084 47,970 91.5 
Taxfiler rate component Descending rank order 
Eléments du taux de déclaration a l'impét Ordre décroissant 
Tax Adult Taxfiler Match Taxfiler 
return(3) population(4) rate(5) rate rate 
Déclaration Population Taux de Taux Taux de 
d'impét (3) adulte(4) déclaration d'apparie- déclaration 
a l'impét(5) ment a l'impét 
ewfoundland —- Terre-Neuve 153,231 B27, 20 46.8 8 10 
rince Edward Island -— fle-du-Prince-fdouard 37,046 LOneoo 48 .6 9 9 
ova Scotia - Nouvelle-Ecosse 296,835 548,195 54a! 6 7 
ew Brunswick - Nouveau-Brunswick Zoho 431,455 53.6 7 8 
uébec 2,307 5452 4,242,225 54.4 10 6 
ntario 3,640, 362 5,494,615 66.3 3 1 
anitoba 427 ,987 701,450 61.0 4 4 
askatchewan 357 ,963 645,815 55.4 1 5 
lberta 690,442 TLS 370. 62.0 2. 3 
ritish Columbia(2) - Colombie-Britannique(2) 1,000,255 1,606,525 62.3 5 2 
OTAL 9,142,624 15,187,405 60.2 eee eee 


1) The percentage of true matches within the estimated tax universe. 

1) Pourcentage des appariements justes au sein de l'univers fiscal estimatif. 

2) Includes Yukon and Northwest Territories. 

2) Yukon et Territoires du Nord-Ouest compris. 

3) Filed early in 1971 for the 1970 taxation year. Source: Taxation Statistics (Revenue Canada - Taxation). 

3) Produites au début de 1971 pour l'année fiscale 1970. Source: Statistiques fiscales (Revenu Canada - Impét). 

4) All persons 15 years and over on Census Day, 1971. Source: Census of Population, Catalogue 92-717, pp. 19-1 to 19-15. 

4) Ensemble des personnes de 15 ans et plus le jour du recensement (1971). Source: Recensement de la population, n° 92-717 au 
catalogue, pp. 19-1 a 19-15. 

5) Percentage of taxfilers within adult population, 

5) Pourcentage de contribuables au sein de la population adulte. 


=%eg1 = 
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TABLE 16. Substitution of Employment Income Components(1) for the Income Base Year, 1970 & 


TABLEAU 16. Substitution d'éléments du revenu de l'emploi(1), 1970 


ee ssssssssssSs9sS9sSsSsSsSsssaa 


Component reported to RC-T but not to Supplementary components(2) (no 
Census (substitution) substitution) 
fléments déclarés A RC-I, mais non au filéments supplémentaires(2) (aucune 
recensement (substitution) substitution) 

Farm net Non-farm Wages and Farm net Non-farm Wages e 
income self-employ- salaries income self—-employ- salaries 
ment income ment income 
Revenu Revenu non Rémuné— Revenu Revenu non Rémuné- | 
agricole agricole, rations agricole agricole, rational 

net travail net travail 
autonome autonome . 


Component reported to Census but not to RC-T 
(substitution) - Eléments déclarés au re- 
censement, mais non 4 RC-I (substitution): 


| 
Farm net income — Revenu agricole net dt 54 56 eee 235 253) | 
Non-farm self-employment income - Revenu non 
agricole, travail autonome 105 stele 433 1,309 oes 735 | 
Wages and salaries - Rémunérations 88 57S As 1,199 694 00 | 
‘| 

Supplementary components(3) (no substitu- 

tion) - £léments supplémentaires(3) 

(aucune substitution): ¢ 
Farm net income — Revenu agricole net eee 1,369 970 eee eee GC | 
Non-farm self-employment income ~— Revenu non 

agricole, travail autonome 294 eee 593 oe eee eee | 
Wages and salaries -—- Rémunérations Syl) 694 Scare, eres ogre ove 


(1) Cell entries are not mutually exclusive, but double counting is unlikely (see text). 

(1) Les chiffres ne s'excluent pas mutuellement, mais les doubles comptes sont peu probables (voir texte). 

(2) Components are absent in both sources or reported in both sources, given that initial (stub) component has been reported: 
to Census; thus, no substitution. 

(2) £léments absents dans les deux sources ou déclarés dans les deux sources, 1'élément initial (marge) ayant été déclaré au 
recensement; il n'y a donc pas substitution. 

(3) Components are absent in both sources or reported in both sources, given that initial (heading) component has been re- 
ported to Revenue Canada - Taxation; thus, no substitution. 


(3) fléments absents dans les deux sources ou déclarés dans les deux sources, 1'élément initial (titre) ayant 6té déclaré a i 
Revenu Canada - Impét; il n'y a donc pas substitution. } 


TABLE 17. Census Gains and Losses Wis—a-vis RC-T Reporting as a Result of Component Substitution for the Income Base Year, 
1970 


TABLEAU 17. Gains et pertes du recensement par rapport A RC-I résultant de la substitution d‘éléments, 1970 
i a me ee 
Gains(1) Losses(2) Net gain (+) 


Census income component net loss (-) 


Eléments du revenu (recensement) Gains(1) Pertes(2) Gains nets (+) 


pertes nettes ( 


Farm net income — Revenu agricole net 110 193 = tis! 
Non-farm net income from self-employment —- 

Revenu non agricole net, travail autonome 538 627 = t3)9) 
Wages and salaries — Rémunérations 661 489 sb elg/72 


(1) Sums of rows in upper left quadrant of Table 16. 

(1) Somme des lignes du cadre supérieur gauche du tableau 16. 
(2) Sums of columns in upper left quadrant of Table 16. 

(2) Somme des colonnes du cadre supérieur gauche du tableau 16. 
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TABLE 18. Number and Percentage of Records Appearing in Equivalent and Neighbouring Income Classes for Selected Income Compo— 
nents whenever Component has been Reported in at Least One Source (Census or RC-T) for the Income Base Year, 1970 


TABLEAU 18. Nombre et pourcentage de dossiers paraissant dans des classes de revenu équivalentes ou voisines en fonction de 
certains éléments du revenu déclarés dans au moins une source (recensement ou RC-I), 1970 


Below main diagonal (Census over- On main diagonal (MD) 
reported) 
Bicome type (number of classes compared) Boke la diagonale principale (sur Sur la diagonale 
déclaration, recensement ) principale (DP) 
enre de revenu (nombre de classes comparées) 
More than one class One class On MD or adjacent 
Plus d'une classe Une classe Sur la DP ou voisines 
Total income(1) - (38) - Revenu total(1) No. - nbre 5055) 3,734 ME IRMA 
No. - nbre Cs lo) 
h 1259) 8.5 56.4 
% C75) 
Wages and salaries - (38) - Rémunérations No. - nbre 4,359 Sees} 23375 
No. — nbre (One sl) 
% 11.2 8.3 60.2 
4 (77.9) 
Jages and salaries - (18) - Rémunérations No. - nbre 2,930 2,916 26,061 
No. - nbre G3 010) 
Wa os USS 67.1 
% (85.0) 
Self-employment income - (24) - Revenu d'un 
travail autonome No. - nbre 1,881 545 1967 
No. - nbre (2,943) 
% 30.6 8.9 32.0 
i (47.9) 
Yon-employment income - (24) - Revenu hors- 
emploi No. — nbre Zao. 1,209 8,600 
No. -— nbre (15,259) 
hs LieG recs 33.3 
ifs (68.0) 
Above main diagonal (Census underreported) Total compared 
Au-dessus de la diagonale principale (sous- Total comparé 


déclaration, recensement) 


One class More than one class 
Une classe Plus d'une classe 
} 
iz income(1) - (38) - Revenu total(1) No. - nbre 4,683 5,076 43,882 
Vo 10.7 11.6 100.0 
ages and salaries - (38) - Rémunérations No. - nbre 3,663 4,244 38,854 
/ % 9.4 10.9 100.0 
ages and salaries - (18) - Rémunérations No. - nbre 4,033 2,914 38,854 
ie 10.4 Load 100.0 
elf-employment income - (24) - Revenu d'un 
travail autonome No. - nbre 431 iS 6,149 
% Thc) Ps RAIS" 100.0 
on-employment income — (24) - Revenu hors- 
emploi No. -— nbre 5,450 4,583 22,434 
: yA PALES 20.4 100.0 


1) Made conceptually compatible in both sources (income subject to taxation). 
1) Rendu conceptuellement compatible dans les deux sources (revenu soumis a l'imp6t). 
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TABLE 19. Distribution of Income Subject to Taxation with Class Deficiency Rates, by Match Status for the Income Base Year, 1970 


TABLEAU 19. R6épartition du revenu soumis a l'impSe et déficit, par statut d'appariement, 1970 


Match status Match status (income source) 


' ome . > 
Statut d'appartement Statut d'appartement (source de 


revenu) 
oe eS ee ee SS 2 See ee ee ee ee Jo ee ee 
ne 
smaneriaat True True False Potential True match True 
Catégorie de revenu match non-match non-match income (RC-T) non=match 
‘ universe (Census) 
Apparie- Non-apparie- Non-apparie- Univers du Appartements Non-apparte— 
ments ments ments revenu justes ments justes 
justes justes erronés potentiel (RC-T) (recensenent) 
number thousands of dollars 
nombre milliers de dollars 
Loss — Reart 210 92 = 302 - 868 - 24) 
$ 1-S 499 2,045 33023 - 5,568 504 VANS} 
500-999 2,364 2,314 = 4,678 nore 1,808 
1,000- 1,499 2,689 3,681 13 6,383 3,370 4,735 
1,500- 1,999 2,676 967 211 3,854 4,683 Doon 
2,000- 2,499 2,541 301 314 3,156 o5/03) 660 
2,500- 2,999 2,400 150 221 Dea 6,605 404 
3,000- 3,499 25500 77 335 2,788 7,716 243 
3,500- 3,999 2,401 4] 295 PAH) 9,001 152 
4,000- 4,499 2,316 30 304 2,650 9,841 125 
4,500- 4,999 2,167 16 227 2,410 10,286 13} 
5,000- 5,499 L942 20 303 25295 10,353 104 
5,500- 5,999 1,905 4 162 2,071 10,940 23 
6,000- 6,999 3,687 9 401 4,097 23,947 56 
7,000= 7,999 3,070 16 404 3,490 22,966 120 
8,000- 8,999 Pipeoh sal 4 247 2,632 205173 34 
9,000- 9,999 1,819 4 191 2,014 Wee Su 38 
10,000 and over - et plus 4,850 23 456 5,329 75,464 482 
TOTAL 43,869 MPa 74 4,084 59,225 239,107 P5129 


——————— 


Match status (income source) Deficiency rate — Déficit 


Statut d'appariement (source de revenu) 


ee a ee ee, eee, True non-match(1) False non-match(2) 
False Potential Non-appariements justes(1) Non-appariements erronés(2) 
non-match income 
(Census) universe 
Records Income Records Income 
Non-apparie— Univers 
ments erronés revenu Dossiers Revenu Dossiers ; Revenu 
(recensement) potentiel 
thousands of dollars per cent 
milliers de dollars pourcentage 
Loss - f£eart - - 1,109 30.5 ile = = 
$ 1-$ 499 = Were 63.3 58.6 re 7 
500- 999 = 3,600 49.5 50.2 = a 
1,000- 1,499 17 Sl? 57.7 58.3 0.2 0.2 
1,500- 1,999 364 6,644 Zaeik 24.0 5-5 5.5 
2,000- 2,499 689 7,052 9.5 9.4 9.9 9.8 
2,500- 2,999 596 7,605 564 bie) 8.0 7.8 
3,000- 3,499 1,064 9,023 2.8 Deh 12.0 11.8 
3,500- 3,999 1,091 10,244 15 1.5 10.8 10.6 
4,000- 4,499 1,258 11,224 iat gil Teles) 11.2 
4,500- 4,999 1,064 eee 0.7 0.7 9.4 9.3 
5,000- 5,499 15559. 12,016 0.9 0.9 13.2 13.0 
5,500- 5,999 923 11,886 Oe2 0.2 7.8 7.8 
6,000- 6,999 2,564 26,567 0.2 0.2 9.8 9.7 
7,000- 7,999 2,975 26,062 0.5 0.5 11.6 11.4 
8,000- 8,999 2,060 22,267 0.2 0.2 9.4 9.3 
9,000- 9,999 eA! 19,040 0.2 0.2 9.5 9.3 
10,000 and over - et plus 7,039 82,985 0.4 0.6 8.6 8.5 
TOTAL 25,034 275,870 19.0 4.0 6.9 9-1 


(1) True non-matches or their aggregate income out of potential income. universe. 


(1) Non-appariements justes ou revenu agrégatif/univers du revenu potentiel. 
(2) False non-matches or their aggregate income out of potential income universe. 
(2) Non-appariements erronés ou revenu agrégatif/univers du revenu potentiel. 


TABLE 20. 


TABLEAU 20. Classement des taux d'appariement et des taux de réussite Par province, 1970 
Adults in False Taxfiler Estimated 


Province 


True match 


sample non-match rate(1) taxfilers 

in sample(2) 
Adultes Non-appa- Taux de Nombre esti- Apparie- 
dans riement déclaration matif de con- ment juste 
1'é6chan- erroné a l'impdt(1) tribuables dans 
tillon 


1'échantillon(2) 


1 2 3 4 5 
i 


ewfoundland - Terre-—Neuve 

Prince Edward Island - fle-du-Prince- 
Edouard 

Nova Scotia - Nouvelle-fFcosse 

New Brunswick -— Nouveau-Brunswick 

Québec 

Ontario 

Manitoba 

Saskatchewan 

Alberta 

British Columbia(3) - Colombie- 
Britannique(3) 


TOTAL 


2wfoundland - Terre—Neuve 
‘ince Edward Island - fle-du-Prince- 
Edouard 
Va Scotia - Nouvelle-fcosse 
‘W Brunswick - Nouveau-Brunswick 
€bec 
tario 
initoba 
'skatchewan 
Jberta 
litish Columbia(3) - Colombie- 
8ritannique(3) 


' 
) 
Y 
J 
; 

. 
/ 


4,464 


204 46.8 2,089 MSE Yp 

P0113 64 48.6 492 510 

7,263 356 54.1 3,929 3,814 

5,863 299 53.6 3,143 3,001 

15,890 1,167 54.4 8,644 tabi La 
20,410 901 66.3 1532 12,647 
4,314 206 61.0 2,632 2,434 

3,849 131 55.4 Zoe 2,030 
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("From Table 15. 
( Chiffres tirés du tableau 15, 


( Number of adults in sample multiplied by taxfiler rate, 


( Nombre d'adultes dans 1'échantillon multiplié par 


‘ Includes data from Yukon 


le taux de déclaration a L'impét. 


and Northwest Territories, 


Yukon et Territoires du Nord-Ouest compris. 


| Estimated by adding provincial results in Column 4; 
UG) ge bal a I 
colonne 4; 
riement II correspondant est donc d 
' False non-matches as a percentage o 
‘ Nombre de non-appariements erronés 
€ One hundred per cent minus failure 
€ Cent pour cent moins le taux d'6che 
7 True matches as a percentage of Column 4 using taxfiler ratio as estimator. 
population in Taxation Statistics, 1972. 


_ Corresponding match rate 
| Somme des résultats de la 


Overestimation of taxfiler 
nS. 
/ Appariements justes en 


pourcentage de la colonne 4, 


when mltiplying Column 1 by Column 3, 47,667 are estimated; the 
si l'on mltiplie la colonne 1 
e 92.1%. 

f all adults in the sample, 

en pourcentage du nombre d'adultes dans 1'échantillon. 
rate. 

fas 


par la colonne 3, on obtient 47,667; le taux d'appa- 


Estimates in excess of 100% are caused by 
Thus match rate II is inferior to match rate in Table 


le pourcentage de contribuables 6tant utilisé comme estimateur. Les 


/€stimations supérieures 3 100% sont attribuables a la surestimation de la population des contribuables dans Statistiques 
'Fiscales, 1972. Le taux d'appariement II est donc inférieur au taux d'appariement du tableau LS. 
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